synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Gucke mir das mal an, habe den Rechner gerade wieder aus. Kann also morgen werden
 

tomjons

Benutzer
Mitglied seit
05. Jun 2013
Beiträge
68
Punkte für Reaktionen
4
Punkte
8
Hallo,

leider klappt das Tool bei uns heute nicht mehr. Es wurden keine Änderungen am Tool bzw. am PDF-Writer vorgenommen.

Ich hänge mal das Log-File an. Grundsätzlich werden PDF`s der Form "Rechnung 2023-059221" gescannt nach unserer Tag Vorlage.
Erstellt wird dann z.B. 191122_2023-059221.
 

Anhänge

  • log.zip
    189,8 KB · Aufrufe: 3
  • _TagConfig_[profile_default].zip
    789 Bytes · Aufrufe: 3

tomjons

Benutzer
Mitglied seit
05. Jun 2013
Beiträge
68
Punkte für Reaktionen
4
Punkte
8
Hier im Anhang eine Beispiel Rechnung. Es soll immer die "gelb" markierte Bestellnummer rausgenzogen und vorangestellt werden.
Dann erfolgt eine Sortierung je nach Zahlungsmethode in den entsprechenden Ordner.
 

Anhänge

  • Rechnung 2023-089787.pdf
    559,5 KB · Aufrufe: 6

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
Was funktioniert denn nicht?
Dein Log ist unvollständig, d.h. es wurde wahrscheinlich während des aktuellen Programmlaufs "entnommen".

Bitte beachte:
Die Abarbeitung ist zweigeteilt. Die Dokumente erscheinen erst im zweiten Schritt im Ausgabeordner. Bei vielen Dokumenten muss man also warten, bis der erste Schritt abgearbeitet ist.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
Hier im Anhang eine Beispiel Rechnung. Es soll immer die "gelb" markierte Bestellnummer rausgenzogen und vorangestellt werden.
Dann erfolgt eine Sortierung je nach Zahlungsmethode in den entsprechenden Ordner.
Also nochmal die Frage:
WAS funktioniert nicht?
Funktionieren die Regeln nicht?
 

tomjons

Benutzer
Mitglied seit
05. Jun 2013
Beiträge
68
Punkte für Reaktionen
4
Punkte
8
Es wird keine Bestellnummer erkannt und voran gestellt. Bei tatsächlich keiner Datei.
 

Anhänge

  • bestellnummerfehlt.JPG
    bestellnummerfehlt.JPG
    70,5 KB · Aufrufe: 5

tomjons

Benutzer
Mitglied seit
05. Jun 2013
Beiträge
68
Punkte für Reaktionen
4
Punkte
8
Letzten Freitag lief noch alles ohne Probleme.
 

Anhänge

  • bestellnummerfehlt-2.JPG
    bestellnummerfehlt-2.JPG
    39,7 KB · Aufrufe: 6

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
OK.
Ist die Nummer im fertigen Dokument einwandfrei kopierbar (also funktioniert das OCR)?
Wenn nicht, dann mal bitte das Image v12.7.2 in der GUI wählen.

Wenn das funktioniert, erstelle bitte nochmal ein Log mit nur einem Dokument. Vielleicht kann @Struppix dazu auch mehr sagen …
 
  • Like
Reaktionen: Struppix

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
I'm debug txt müsste doch auch stehen was das OCR treibt oder? So habe ich das ja bei mir auch gesehen
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
880
Punkte für Reaktionen
179
Punkte
63
Es wird keine Bestellnummer erkannt und voran gestellt. Bei tatsächlich keiner Datei.
Hey, keine Ahnung ob es am Scan liegt, aber die RegEx matched nicht, also sie funktioniert gar nicht.

Versuch mal das
Code:
(?!Ihr\s*Beleg\S*\s*)(?:\d+)(?=\s*[\/])

anstatt
Code:
((?<=(^Ihr Beleg[:|;][\s]{7}){1})|(?<=(^Ihr Beleg[:|;][\s]{8}){1})|(?<=(^Ihr Beleg[:|;][\s]{9}){1}))[0-9]+

Gruß
Karsten
 
  • Like
Reaktionen: tomjons

tomjons

Benutzer
Mitglied seit
05. Jun 2013
Beiträge
68
Punkte für Reaktionen
4
Punkte
8
Guten Morgen, ich verstehe nur nicht warum es ohne mein Zutun von heute auf morgen nicht mehr funktioniert.
Was funktioniert ist die Sortierung in die entsprechenden Ordner je nach Zahlungsweise.

Hier eine Log-Datei vom OCR einer Rechnung gerade eben.
 

Anhänge

  • synOCR_searchfile_Rechnung 2023-090237.zip
    1,4 KB · Aufrufe: 2

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
880
Punkte für Reaktionen
179
Punkte
63
Guten Morgen, ich verstehe nur nicht warum es ohne mein Zutun von heute auf morgen nicht mehr funktioniert.
Guten Morgen, die Frage können wir als Außenstehende ohne mehr Informationen nicht beantworten, so wie Stephan schon schreibt.
Eine Möglichkeit ist das Image, schau mal hier.

Hast Du meine RegEx mal getestet ? Die sollte funktionieren. Mit Deinem Beispiel ging es.

Karsten

Edit: Ist das die Ausgabe der Debug2 einer Deiner Rechnungen ? Sieht sehr seltsam aus. Ändere mal bitte das Image im GUI und verseuche es erneut. Denn so kann das nicht funktionieren, auch meine RegEx wird so nicht gehen.
 
  • Like
Reaktionen: Gthorsten

tomjons

Benutzer
Mitglied seit
05. Jun 2013
Beiträge
68
Punkte für Reaktionen
4
Punkte
8
Hey, keine Ahnung ob es am Scan liegt, aber die RegEx matched nicht, also sie funktioniert gar nicht.

Versuch mal das
Code:
(?!Ihr\s*Beleg\S*\s*)(?:\d+)(?=\s*[\/])

anstatt
Code:
((?<=(^Ihr Beleg[:|;][\s]{7}){1})|(?<=(^Ihr Beleg[:|;][\s]{8}){1})|(?<=(^Ihr Beleg[:|;][\s]{9}){1}))[0-9]+

Gruß
Karsten

Damit klappt es jetzt :) Vielen Dank. Werde es jetzt noch weiter testen
 
  • Like
Reaktionen: Struppix

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Struppix hat recht.. Bei mir sah es mit dem aktuellen OCR image genau so aus. Fast jedes Wort in einer eigenen Zeile. Da ging nix mehr. Habe dann das von Stefan erwähnte Image genommen. Damit geht wieder alles
 

tomjons

Benutzer
Mitglied seit
05. Jun 2013
Beiträge
68
Punkte für Reaktionen
4
Punkte
8
Damit klappt es jetzt :) Vielen Dank. Werde es jetzt noch weiter testen

Kann ich die RegEx noch irgendwie verbessern. Bei manchen PDFs zieht er die falschen Nummern.
Siehe Screenshot im Anhang.

Hier liefert er als Ergebnis: 09447_Rechnung 2023-089893
Zieht quasi einen Teil der Telefonnummer statt der Bestellnummer
 

Anhänge

  • ocr.JPG
    ocr.JPG
    30,5 KB · Aufrufe: 3

tomjons

Benutzer
Mitglied seit
05. Jun 2013
Beiträge
68
Punkte für Reaktionen
4
Punkte
8
Struppix hat recht.. Bei mir sah es mit dem aktuellen OCR image genau so aus. Fast jedes Wort in einer eigenen Zeile. Da ging nix mehr. Habe dann das von Stefan erwähnte Image genommen. Damit geht wieder alles

Also ich hab am Image nichts verändert - nur die RegEx obwohl meine vorherige immer funktioniert hat.
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
880
Punkte für Reaktionen
179
Punkte
63
Also ich hab am Image nichts verändert - nur die RegEx obwohl meine vorherige immer funktioniert hat.
Schau mal bitte, ob Du im GUI diese Image eingestellt hast. Wenn nicht stell das Image v12.7.2 ein und berichte.

Danach das falsch erkannte Dokument nochmals scannen. Wenn das dann immer noch nicht ok ist, lade mir bitte mal die Protokoll Datei ("searchfile") auf meinen Upload hoch (meine Signatur unten rechts "Ideen....")

Karsten
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
Also ich hab am Image nichts verändert - nur die RegEx obwohl meine vorherige immer funktioniert hat.
Wenn man in der GUI das Image :latest wählt, sowie den Schalter „Image aktuell halten“ gesetzt hat, dann wird auch regelmäßig auf ein neues Image aktualisiert. Gestern früh gab es das Update auf OCRmyPDF v16.0.0 und das scheint bei einigen zu diesen Problemen geführt zu haben.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat