synOCR synOCR - GUI für OCRmyPDF

Gthorsten · 13. März 2023

DeeKay1 schrieb:
@Gthorsten
Eine Idee wieso er bei der Zeile auf dieses Datum kommt? Und ja, es wird wohl Zeit in den Setting ein Max-Year anzugeben
Anhang anzeigen 80425

So habe da eine kleine Unschönheit bereinigt.
An der Stelle sollte jetzt nichts mehr passieren.
Ich muss das aber noch ein wenig testen und dann an Stephan geben.
Da jetzt aber Feierabend ist

wird es noch ein wenig dauern...

Pat Rick · 14. März 2023

ZwickeZwacke schrieb:
So, Versuch mit der Beta Version - jedoch ohne Ergebnis.
Spannenderweise hat er jetzt nicht das Separator Sheet entfernt und alles was danach kommt sondern:

Anhang anzeigen 80232

Funfact: Auch mit der Beta funktioniert die "leere Seite" zwar ignorieren aber dafür alles verarbeiten nur - wenn ich die Funktion "entzerren" weg lasse

Hi
Hast Du das Problem noch oder hast Du eine Lösung gefunden. Ich habe ein ähnliches Problem. Bei mir wird zwar separiert, aber die Separator Sheets bleiben drin. Manchmal hinten, manchmal vorne. Manchmal als einzelne seiten. Anbei Mein Separator Sheet.
Kann mir da jemand helfen. Ich habe die neuste Version drauf 1.3.1

geimist · 14. März 2023

Bei @ZwickeZwacke hing das Problem auch irgendwie mit seinem Scanner zusammen. Die Sache ist aber noch nicht abgeschlossen. Kannst du mal etwas unverfängliches scannen, was Probleme bereitet und mich hochladen? (inkl. Log).

Pat Rick · 15. März 2023

Mach ich schnellst möglich.
Komisch ist, dass das OCR den Text den Sheets sauber erkennt. Ergo müsste er nach dem Erkennen des Schlüsselwortes sauber trennen. Komisch ist auch, dass es ganz am Anfang gleich nach der initialen konfiguration funktioniert hat. Zumindest ist mir da kein Fehler aufgefallen.

Ich werde noch testen, ob es eventuell mit der Grösse des PDF's zu tun hat. Es sind jeweils bis zu zehn Separatoren Sheets in einem File und die Files sind bis zu 2mb gross. Was der Scanner auf einmal schlucken kann. ;-)

geimist · 15. März 2023

Nutzt du die aktuelle Beta? Da wurde ein Fehler behoben, sofern zwei aufeinanderfolgende Trennblätter vorhanden waren. Das äußerte sich aber anders. Wir brauchen aber nicht zu spekulieren. Ich guck mir dann deine Files an.

Pat Rick · 15. März 2023

Ne ich benutze 1.3.1 und die Trennblätter haben immer ein Dokument dazwischen und kommen nie direkt nacheinander.
Möchtest du das verarbeite File oder das Original oder beides?

Pat Rick · 15. März 2023

Es ist echt ätzend. Ich habe vier Separator Sheets und fünf Blätter mit Text zum testen genommen und alles funktioniert wie es soll.
Gestern hatte ich nur Fehler. Leider kann ich Dir die Files nicht schicken, weil der Inhalt etwas heikel ist (Bank). Trotzdem hier mal das Separator Sheet was ich verwende:

http://ichmagcirclelab76.quickconne.../QNjfWH325rnTo6USLoL5WBTaAPqJjDHr-6b4gjHcKSgo
Link bis 23.03.23 gültig.

Danke für die Hilfe

geimist · 16. März 2023

Das ist merkwürdig. An dieser Funktion wurde in der stabilen Version nichts geändert. @ZwickeZwacke hatte da u.a. Unterschiede bemerkt, sobald er den Parameter -d in der OCR-Parametern geändert hat. Bitte das mal checken oder mal ein älteres OCRmyPDF-Image probieren (z.B. 12.7.2 mal manuell laden und in der GUI auswählen).
Bitte berichte.

Wolf56 · 17. März 2023

Moin, bin neu in diesem Forum. Ich habe mal eine Frage zu den YAMLRULEFILE. Gibt's auch die Möglichkeit einer "ODER"-Abfrage in einem Regelblock? Der Hintergrund der Frage ist, dass Namen mit Umlauten zum Teil mit "ä" oder "ae" geschrieben werden.
Danke schon mal im Voraus.
Gruß
Wolf

Gthorsten · 17. März 2023

Moin und willkommen, nein das geht im Moment nicht.
Da geht vielleicht was mit regex die den suchpattern

Wolf56 · 17. März 2023

Ok, danke für die schnelle Antwort. Ich werd dann mal weiter probieren.

DeeKay1 · 17. März 2023

Wolf56 schrieb:
Der Hintergrund der Frage ist, dass Namen mit Umlauten zum Teil mit "ä" oder "ae" geschrieben werden.

Jep, das kriegst du mit Regex hin: R(?:ä|ae)tsel.
Du kannst natürlich auch Rätsel|Raetsel schreiben.
Am besten mit Regex vertraut machen und mittels https://regexr.com/ lernen. Allerdings hat jede Regex-Implementierung so seine Eigenheiten. Wenn du am ehesten an das was synOCR macht rankommen willst, dann rechts oben von Javascript auf PCRE umstellen.

Struppix · 17. März 2023

Hallo Wolf,

Wolf56 schrieb:
Moin, bin neu in diesem Forum. Ich habe mal eine Frage zu den YAMLRULEFILE. Gibt's auch die Möglichkeit einer "ODER"-Abfrage in einem Regelblock? Der Hintergrund der Frage ist, dass Namen mit Umlauten zum Teil mit "ä" oder "ae" geschrieben werden.
Danke schon mal im Voraus.
Gruß
Wolf

wie Thorsten schreibt, geht eine "Oder" Variante derzeit nicht.

Was möchtest Du aber genau?

Willst Du eine "und / oder" Abfrage machen, geht dies über RegEx, zb. so

Code:

(Suchbegriff1|Suchbegriff2)

Willst Du hingegen in einen bekannten Suchbegriff nur die Übereinstimmung der unterschiedlichen Schreibweise realisieren, sollte auch ein ? an der Stelle ausreichen

Code:

Eisb?r

Um in einer RegEx alle Umlaute zu berücksichtigen, nutze die Klassifizierung

Code:

[a-z\p{L}]+

Gruß Karsten

Wolf56 · 17. März 2023

Danke Euch für die Lösungsansätze. Damit werde ich mich jetzt mal auseinandersetzen.
Gruß
Wolf

Struppix · 17. März 2023

Hallo Leute,

wir haben mal einen eigenen Thread zu Thema YAML und RegEx aufgemacht.

synOCR - Aufbau einer YAML Datei - Verwendung Regulärer Ausdrücke

Schaut mal rein

Gruß Karsten

geimist · 17. März 2023

Dazu möchte ich noch anmerken, dass ich mit synOCR jetzt auf Github umgezogen bin. Das betrifft auch das Wiki. Das alte Repo bleibt aber zunächst noch erreichbar, damit Verlinkungen auf Code in diesem Thread gültig bleiben.

adallmo · 17. März 2023

Hallo zusammen,

ich möchte eingescannte Kassenstreifen und Kaufbelege in einen eigenen Unterordner speichern. Lässt sich das mit Synocr realisieren? Leider gibt es keine eindeutigen searchstrings auf diesen Dokumenten, mit denen eine einfache YAML-Regel möglich wäre. Kann Synocr die ungewöhnlichen Scan-Formate dieser langen Papierstreifen erkennen und basierend darauf das Dokument im entsprechenden Unterordner ablegen?

Beste Grüße!

Ansgar

geimist · 17. März 2023

Unterstützt dein Scanner mehrere Profile? Dann könntest du auch ein separates synOCR Profil anlegen und so dein Vorhaben realisieren.

adallmo · 18. März 2023

geimist schrieb:
Unterstützt dein Scanner mehrere Profile? Dann könntest du auch ein separates synOCR Profil anlegen und so dein Vorhaben realisieren.

Moin Stephan,

danke für den Tipp. Ich will die innerfamiliären Akzeptanzprobleme klein und die Bedienung so einfach wie möglich halten. Mein Brother ADS 1700 W liegt noch verpackt in der Ecke. Ich glaube, der kann mehrere Profile. Ich probiere das demnächst aus.

Also auf dem Scanner ein zweites Scanprofil anlegen und auf dem NAS ebenfalls ein zweites Synocr-Profil, das dann vom Scanner gefüttert wird? Die Synocr-Profile werden ja automatisch nacheinander abgearbeitet, richtig? Reicht es, wenn das zweite Synocr-Profil lediglich einen eigenen Input-Ordner hat und die ocr-ten-Dokumente per YAML-Regel in einen eigenen Unterordner im gemeinsamen Out-put-Ordner ablegt? Und bestenfalls auch den log- und Backup-Ordner des ersten Profils mitbenutzt?

Schönes Wochenende

Ansgar

Monacum · 18. März 2023

Ja das funktioniert so, eigener Input-Ordner und eben ein zweites Profil auf dem Scanner. Die kann man bei meinem iX1500 unterschiedlich benennen und auch ein eigenes gif verwenden (z. B. Buchstabe), vielleicht geht das bei dem Brother ja auch.

Logs und Backups habe ich auch in einem Ordner.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat