synOCR synOCR - GUI für OCRmyPDF

geimist · 18. Dez. 2023

Können die Betroffenen mal checken, ob es sich um dieses Problem handelt und ggf. entsprechen lösen lässt?
https://github.com/ocrmypdf/OCRmyPDF/issues/1035

Gthorsten · 18. Dez. 2023

Gucke mir das mal an, habe den Rechner gerade wieder aus. Kann also morgen werden

tomjons · 18. Dez. 2023

Hallo,

leider klappt das Tool bei uns heute nicht mehr. Es wurden keine Änderungen am Tool bzw. am PDF-Writer vorgenommen.

Ich hänge mal das Log-File an. Grundsätzlich werden PDF`s der Form "Rechnung 2023-059221" gescannt nach unserer Tag Vorlage.
Erstellt wird dann z.B. 191122_2023-059221.

tomjons · 18. Dez. 2023

Hier im Anhang eine Beispiel Rechnung. Es soll immer die "gelb" markierte Bestellnummer rausgenzogen und vorangestellt werden.
Dann erfolgt eine Sortierung je nach Zahlungsmethode in den entsprechenden Ordner.

geimist · 18. Dez. 2023

Was funktioniert denn nicht?
Dein Log ist unvollständig, d.h. es wurde wahrscheinlich während des aktuellen Programmlaufs "entnommen".

Bitte beachte:
Die Abarbeitung ist zweigeteilt. Die Dokumente erscheinen erst im zweiten Schritt im Ausgabeordner. Bei vielen Dokumenten muss man also warten, bis der erste Schritt abgearbeitet ist.

geimist · 18. Dez. 2023

tomjons schrieb:
Hier im Anhang eine Beispiel Rechnung. Es soll immer die "gelb" markierte Bestellnummer rausgenzogen und vorangestellt werden.
Dann erfolgt eine Sortierung je nach Zahlungsmethode in den entsprechenden Ordner.

Also nochmal die Frage:
WAS funktioniert nicht?
Funktionieren die Regeln nicht?

tomjons · 18. Dez. 2023

Es wird keine Bestellnummer erkannt und voran gestellt. Bei tatsächlich keiner Datei.

tomjons · 18. Dez. 2023

Letzten Freitag lief noch alles ohne Probleme.

geimist · 18. Dez. 2023

OK.
Ist die Nummer im fertigen Dokument einwandfrei kopierbar (also funktioniert das OCR)?
Wenn nicht, dann mal bitte das Image v12.7.2 in der GUI wählen.

Wenn das funktioniert, erstelle bitte nochmal ein Log mit nur einem Dokument. Vielleicht kann @Struppix dazu auch mehr sagen …

Gthorsten · 18. Dez. 2023

I'm debug txt müsste doch auch stehen was das OCR treibt oder? So habe ich das ja bei mir auch gesehen

geimist · 18. Dez. 2023

Du hast recht, aber die liegt mir auch nicht vor.

Struppix · 18. Dez. 2023

tomjons schrieb:
Es wird keine Bestellnummer erkannt und voran gestellt. Bei tatsächlich keiner Datei.

Hey, keine Ahnung ob es am Scan liegt, aber die RegEx matched nicht, also sie funktioniert gar nicht.

Versuch mal das

Code:

(?!Ihr\s*Beleg\S*\s*)(?:\d+)(?=\s*[\/])

anstatt

Code:

((?<=(^Ihr Beleg[:|;][\s]{7}){1})|(?<=(^Ihr Beleg[:|;][\s]{8}){1})|(?<=(^Ihr Beleg[:|;][\s]{9}){1}))[0-9]+

Gruß
Karsten

tomjons · 19. Dez. 2023

Guten Morgen, ich verstehe nur nicht warum es ohne mein Zutun von heute auf morgen nicht mehr funktioniert.
Was funktioniert ist die Sortierung in die entsprechenden Ordner je nach Zahlungsweise.

Hier eine Log-Datei vom OCR einer Rechnung gerade eben.

Struppix · 19. Dez. 2023

tomjons schrieb:
Guten Morgen, ich verstehe nur nicht warum es ohne mein Zutun von heute auf morgen nicht mehr funktioniert.

Guten Morgen, die Frage können wir als Außenstehende ohne mehr Informationen nicht beantworten, so wie Stephan schon schreibt.
Eine Möglichkeit ist das Image, schau mal hier.

Hast Du meine RegEx mal getestet ? Die sollte funktionieren. Mit Deinem Beispiel ging es.

Karsten

Edit: Ist das die Ausgabe der Debug2 einer Deiner Rechnungen ? Sieht sehr seltsam aus. Ändere mal bitte das Image im GUI und verseuche es erneut. Denn so kann das nicht funktionieren, auch meine RegEx wird so nicht gehen.

tomjons · 19. Dez. 2023

Struppix schrieb:
Hey, keine Ahnung ob es am Scan liegt, aber die RegEx matched nicht, also sie funktioniert gar nicht.

Versuch mal das

Code:

(?!Ihr\s*Beleg\S*\s*)(?:\d+)(?=\s*[\/])

anstatt

Code:

((?<=(^Ihr Beleg[:|;][\s]{7}){1})|(?<=(^Ihr Beleg[:|;][\s]{8}){1})|(?<=(^Ihr Beleg[:|;][\s]{9}){1}))[0-9]+

Gruß
Karsten

Damit klappt es jetzt

Vielen Dank. Werde es jetzt noch weiter testen

Gthorsten · 19. Dez. 2023

Struppix hat recht.. Bei mir sah es mit dem aktuellen OCR image genau so aus. Fast jedes Wort in einer eigenen Zeile. Da ging nix mehr. Habe dann das von Stefan erwähnte Image genommen. Damit geht wieder alles

tomjons · 19. Dez. 2023

tomjons schrieb:
Damit klappt es jetzt Vielen Dank. Werde es jetzt noch weiter testen

Kann ich die RegEx noch irgendwie verbessern. Bei manchen PDFs zieht er die falschen Nummern.
Siehe Screenshot im Anhang.

Hier liefert er als Ergebnis: 09447_Rechnung 2023-089893
Zieht quasi einen Teil der Telefonnummer statt der Bestellnummer

tomjons · 19. Dez. 2023

Gthorsten schrieb:
Struppix hat recht.. Bei mir sah es mit dem aktuellen OCR image genau so aus. Fast jedes Wort in einer eigenen Zeile. Da ging nix mehr. Habe dann das von Stefan erwähnte Image genommen. Damit geht wieder alles

Also ich hab am Image nichts verändert - nur die RegEx obwohl meine vorherige immer funktioniert hat.

Struppix · 19. Dez. 2023

tomjons schrieb:
Also ich hab am Image nichts verändert - nur die RegEx obwohl meine vorherige immer funktioniert hat.

Schau mal bitte, ob Du im GUI diese Image eingestellt hast. Wenn nicht stell das Image v12.7.2 ein und berichte.

Danach das falsch erkannte Dokument nochmals scannen. Wenn das dann immer noch nicht ok ist, lade mir bitte mal die Protokoll Datei ("searchfile") auf meinen Upload hoch (meine Signatur unten rechts "Ideen....")

Karsten

geimist · 19. Dez. 2023

tomjons schrieb:
Also ich hab am Image nichts verändert - nur die RegEx obwohl meine vorherige immer funktioniert hat.

Wenn man in der GUI das Image :latest wählt, sowie den Schalter „Image aktuell halten“ gesetzt hat, dann wird auch regelmäßig auf ein neues Image aktualisiert. Gestern früh gab es das Update auf OCRmyPDF v16.0.0 und das scheint bei einigen zu diesen Problemen geführt zu haben.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat