synOCR synOCR - GUI für OCRmyPDF

@Gthorsten
Eine Idee wieso er bei der Zeile auf dieses Datum kommt? Und ja, es wird wohl Zeit in den Setting ein Max-Year anzugeben :D
Anhang anzeigen 80425
So habe da eine kleine Unschönheit bereinigt.
An der Stelle sollte jetzt nichts mehr passieren.
Ich muss das aber noch ein wenig testen und dann an Stephan geben.
Da jetzt aber Feierabend ist :-) wird es noch ein wenig dauern...
 
  • Like
Reaktionen: DeeKay1 und geimist
So, Versuch mit der Beta Version - jedoch ohne Ergebnis.
Spannenderweise hat er jetzt nicht das Separator Sheet entfernt und alles was danach kommt sondern:

Anhang anzeigen 80232

Funfact: Auch mit der Beta funktioniert die "leere Seite" zwar ignorieren aber dafür alles verarbeiten nur - wenn ich die Funktion "entzerren" weg lasse
Hi
Hast Du das Problem noch oder hast Du eine Lösung gefunden. Ich habe ein ähnliches Problem. Bei mir wird zwar separiert, aber die Separator Sheets bleiben drin. Manchmal hinten, manchmal vorne. Manchmal als einzelne seiten. Anbei Mein Separator Sheet.
Kann mir da jemand helfen. Ich habe die neuste Version drauf 1.3.1
 
Bei @ZwickeZwacke hing das Problem auch irgendwie mit seinem Scanner zusammen. Die Sache ist aber noch nicht abgeschlossen. Kannst du mal etwas unverfängliches scannen, was Probleme bereitet und mich hochladen? (inkl. Log).
 
Mach ich schnellst möglich.
Komisch ist, dass das OCR den Text den Sheets sauber erkennt. Ergo müsste er nach dem Erkennen des Schlüsselwortes sauber trennen. Komisch ist auch, dass es ganz am Anfang gleich nach der initialen konfiguration funktioniert hat. Zumindest ist mir da kein Fehler aufgefallen.

Ich werde noch testen, ob es eventuell mit der Grösse des PDF's zu tun hat. Es sind jeweils bis zu zehn Separatoren Sheets in einem File und die Files sind bis zu 2mb gross. Was der Scanner auf einmal schlucken kann. ;-)
 
Nutzt du die aktuelle Beta? Da wurde ein Fehler behoben, sofern zwei aufeinanderfolgende Trennblätter vorhanden waren. Das äußerte sich aber anders. Wir brauchen aber nicht zu spekulieren. Ich guck mir dann deine Files an.
 
Ne ich benutze 1.3.1 und die Trennblätter haben immer ein Dokument dazwischen und kommen nie direkt nacheinander.
Möchtest du das verarbeite File oder das Original oder beides?
 
Es ist echt ätzend. Ich habe vier Separator Sheets und fünf Blätter mit Text zum testen genommen und alles funktioniert wie es soll.
Gestern hatte ich nur Fehler. Leider kann ich Dir die Files nicht schicken, weil der Inhalt etwas heikel ist (Bank). Trotzdem hier mal das Separator Sheet was ich verwende:

http://ichmagcirclelab76.quickconne.../QNjfWH325rnTo6USLoL5WBTaAPqJjDHr-6b4gjHcKSgo
Link bis 23.03.23 gültig.

Danke für die Hilfe
 
Das ist merkwürdig. An dieser Funktion wurde in der stabilen Version nichts geändert. @ZwickeZwacke hatte da u.a. Unterschiede bemerkt, sobald er den Parameter -d in der OCR-Parametern geändert hat. Bitte das mal checken oder mal ein älteres OCRmyPDF-Image probieren (z.B. 12.7.2 mal manuell laden und in der GUI auswählen).
Bitte berichte.
 
Moin, bin neu in diesem Forum. Ich habe mal eine Frage zu den YAMLRULEFILE. Gibt's auch die Möglichkeit einer "ODER"-Abfrage in einem Regelblock? Der Hintergrund der Frage ist, dass Namen mit Umlauten zum Teil mit "ä" oder "ae" geschrieben werden.
Danke schon mal im Voraus.
Gruß
Wolf
 
Moin und willkommen, nein das geht im Moment nicht.
Da geht vielleicht was mit regex die den suchpattern
 
Der Hintergrund der Frage ist, dass Namen mit Umlauten zum Teil mit "ä" oder "ae" geschrieben werden.
Jep, das kriegst du mit Regex hin: R(?:ä|ae)tsel.
Du kannst natürlich auch Rätsel|Raetsel schreiben.
Am besten mit Regex vertraut machen und mittels https://regexr.com/ lernen. Allerdings hat jede Regex-Implementierung so seine Eigenheiten. Wenn du am ehesten an das was synOCR macht rankommen willst, dann rechts oben von Javascript auf PCRE umstellen.
1679042881717.png
 
Hallo Wolf,
Moin, bin neu in diesem Forum. Ich habe mal eine Frage zu den YAMLRULEFILE. Gibt's auch die Möglichkeit einer "ODER"-Abfrage in einem Regelblock? Der Hintergrund der Frage ist, dass Namen mit Umlauten zum Teil mit "ä" oder "ae" geschrieben werden.
Danke schon mal im Voraus.
Gruß
Wolf
wie Thorsten schreibt, geht eine "Oder" Variante derzeit nicht.

Was möchtest Du aber genau?

Willst Du eine "und / oder" Abfrage machen, geht dies über RegEx, zb. so
Code:
(Suchbegriff1|Suchbegriff2)

Willst Du hingegen in einen bekannten Suchbegriff nur die Übereinstimmung der unterschiedlichen Schreibweise realisieren, sollte auch ein ? an der Stelle ausreichen
Code:
Eisb?r

Um in einer RegEx alle Umlaute zu berücksichtigen, nutze die Klassifizierung
Code:
[a-z\p{L}]+

Gruß Karsten
 
Danke Euch für die Lösungsansätze. Damit werde ich mich jetzt mal auseinandersetzen.
Gruß
Wolf
 
Dazu möchte ich noch anmerken, dass ich mit synOCR jetzt auf Github umgezogen bin. Das betrifft auch das Wiki. Das alte Repo bleibt aber zunächst noch erreichbar, damit Verlinkungen auf Code in diesem Thread gültig bleiben.
 
Hallo zusammen,

ich möchte eingescannte Kassenstreifen und Kaufbelege in einen eigenen Unterordner speichern. Lässt sich das mit Synocr realisieren? Leider gibt es keine eindeutigen searchstrings auf diesen Dokumenten, mit denen eine einfache YAML-Regel möglich wäre. Kann Synocr die ungewöhnlichen Scan-Formate dieser langen Papierstreifen erkennen und basierend darauf das Dokument im entsprechenden Unterordner ablegen?

Beste Grüße!

Ansgar
 
Unterstützt dein Scanner mehrere Profile? Dann könntest du auch ein separates synOCR Profil anlegen und so dein Vorhaben realisieren.
 
  • Like
Reaktionen: adallmo
Unterstützt dein Scanner mehrere Profile? Dann könntest du auch ein separates synOCR Profil anlegen und so dein Vorhaben realisieren.
Moin Stephan,

danke für den Tipp. Ich will die innerfamiliären Akzeptanzprobleme klein und die Bedienung so einfach wie möglich halten. Mein Brother ADS 1700 W liegt noch verpackt in der Ecke. Ich glaube, der kann mehrere Profile. Ich probiere das demnächst aus.

Also auf dem Scanner ein zweites Scanprofil anlegen und auf dem NAS ebenfalls ein zweites Synocr-Profil, das dann vom Scanner gefüttert wird? Die Synocr-Profile werden ja automatisch nacheinander abgearbeitet, richtig? Reicht es, wenn das zweite Synocr-Profil lediglich einen eigenen Input-Ordner hat und die ocr-ten-Dokumente per YAML-Regel in einen eigenen Unterordner im gemeinsamen Out-put-Ordner ablegt? Und bestenfalls auch den log- und Backup-Ordner des ersten Profils mitbenutzt?

Schönes Wochenende

Ansgar
 
Ja das funktioniert so, eigener Input-Ordner und eben ein zweites Profil auf dem Scanner. Die kann man bei meinem iX1500 unterschiedlich benennen und auch ein eigenes gif verwenden (z. B. Buchstabe), vielleicht geht das bei dem Brother ja auch.

Logs und Backups habe ich auch in einem Ordner.
 
  • Like
Reaktionen: adallmo
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat