synOCR synOCR - GUI für OCRmyPDF

tomjons

Benutzer
Mitglied seit
05. Jun 2013
Beiträge
68
Punkte für Reaktionen
4
Punkte
8
Schau mal bitte, ob Du im GUI diese Image eingestellt hast. Wenn nicht stell das Image v12.7.2 ein und berichte.

Danach das falsch erkannte Dokument nochmals scannen. Wenn das dann immer noch nicht ok ist, lade mir bitte mal die Protokoll Datei ("searchfile") auf meinen Upload hoch (meine Signatur unten rechts "Ideen....")

Karsten
Image gewechselt - Ergebnis bleibt leider gleich. Log-Dateien hab ich angehängt.
Ergebnis ist: 4_Rechnung 2023-090493
 

Anhänge

  • synOCR_searchfile_Rechnung 2023-090237.zip
    1,4 KB · Aufrufe: 2

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
882
Punkte für Reaktionen
184
Punkte
63
Kommando zurück. Mit dem "alten" Image klappt die Datei jetzt.
Das ist doch prima.
Normalerweise sollte die RegEx (mein Vorschlag) funktionieren. Für den Fall das Du einen Fall findest, der nicht klappt, lade mir die Sachen einfach hoch, dann schau ich.

Gruß Karsten
 
  • Like
Reaktionen: tomjons

plang.pl

Benutzer
Contributor
Sehr erfahren
Mitglied seit
28. Okt 2020
Beiträge
15.028
Punkte für Reaktionen
5.401
Punkte
564
Da geh ich mit - das ist echt super Arbeit von @geimist - kann man nicht oft genug betonen!
 

Zoul

Benutzer
Mitglied seit
04. Jan 2023
Beiträge
83
Punkte für Reaktionen
17
Punkte
8
Kurze Frage hätte ich noch: Kann ich es irgendwie so machen, dass er mir "Rechnung 1234" in den Dateinamen schreibt? Bei "Tags" kann ich ja "Rechnung" hineinschreiben, aber wie erkennt synOCR (wenn überhaupt) die nachfolgende Rechnungsnummer, um sie auch in den Dateinamen zu schreiben? Oder geht das nicht? Dankeschön.

LG

Mick
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.536
Punkte für Reaktionen
1.372
Punkte
234
Wenn du eine YAML-Regeldatei verwendest, dann kannst du dich da ziemlich mit Regex austoben.
Guck mal HIER INS WIKI – unser lieber @Struppix hat dafür schon vieles dokumentiert. Wenn dann noch Fragen auftauchen, helfen wir dir gern weiter :)

PS: guck mal auch in @Struppix seine Signatur. Neben seinem YAML-Editor findest du dort auch seine YouTube HowTo's
 
  • Like
Reaktionen: Zoul

Zoul

Benutzer
Mitglied seit
04. Jan 2023
Beiträge
83
Punkte für Reaktionen
17
Punkte
8
Hi Stephan,

dann geh ich mal auf Forschungsreise. Danke Dir für allles. Tolles Prpgramm.

LG

Mick
 
  • Love
Reaktionen: geimist

Zoul

Benutzer
Mitglied seit
04. Jan 2023
Beiträge
83
Punkte für Reaktionen
17
Punkte
8
So lieber @geimist Ich bin zurück von meiner Reise. YAML Datei erstellt und funktioniert. Eine Sache mit meinen Rechnungsnummern habe ich aber nicht herausgefunden:

Rechnungsnummer_7:
tagname: Rechnung_§tagname_RegEx
tagname_RegEx: (?i)(?|(Rechnung\D*([N|n]um\S+|Nr[\.\-\:\;\/\|\ ]*)|(RE[\.\-\:\;\/\|\ ]*NR)\S*)\s+?\K(\S*[\.\-\:\;\/\|\ ]*\d)+)+\b
multilineregex: true
condition: all
subrules:
- searchstring: (?|(Rechnung\D*([N|n]um\S+|Nr[\.\-\:\;\/\|\ ]*)|(RE[\.\-\:\;\/\|\ ]*NR)\S*)\s+?\K(\S*[\.\-\:\;\/\|\ ]*\d)+)+\b
searchtyp: contains
isRegEx: true
multilineregex: true
source: content
casesensitive: false

Wenn der String beispielsweise "Rechnung Nr. 77 66 12" lautet, wird brav "Rechnung_77 66 12" ausgegeben. Wie bekomme ich aus der Rechnungsnummer nun noch die Leerzeichen raus? Bitte schick mich nicht wieder auf Reisen.

LG

Mick
 

Zoul

Benutzer
Mitglied seit
04. Jan 2023
Beiträge
83
Punkte für Reaktionen
17
Punkte
8
Manche mehrseitige PDFs werden in ERRORFILES kopiert und es kommt dieser Fehler:

EncryptedPdfError: Input PDF is encrypted. The encryption must be removed to
perform OCR.

Das PDF ist eine O2 Rechnung und garantiert nicht verschlüsselt.

Idee?

LG

Mick
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
882
Punkte für Reaktionen
184
Punkte
63
Wie bekomme ich aus der Rechnungsnummer nun noch die Leerzeichen raus? Bitte schick mich nicht wieder auf Reisen.
Hallo Mick, schau Dir mal bitte Video Nummer 7 im YouTube Chanel an.

Gruß Karsten

Edit: Das Script findest Du zum Download in der Video Beschreibung
 
  • Like
Reaktionen: Zoul und geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.536
Punkte für Reaktionen
1.372
Punkte
234
Das PDF ist eine O2 Rechnung und garantiert nicht verschlüsselt.
Verschlüsselt bedeutet nicht unbedingt, dass es nur mit Passwort lesbar ist. In der Regel sind solche Dateien durch das Verschlüsseln vor Veränderung geschützt, aber eben verschlüsselt. Man kann bei der PDF-Verschlüsselung unterschiedliche Berechtigungen vergeben.
 
  • Like
Reaktionen: Zoul

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
882
Punkte für Reaktionen
184
Punkte
63
So ist es. Ich habe dasselbe bei Auszügen der Barclaybank.
Da gibt es 2 Optionen die Du versuchen kannst.
1. Setze mal in den OCR-Optionen den Schalter auf -f, also force.
2. Wenn das nicht hilft, dann musst Du leider das Dokument als Bild ausdrucken und dann durch synOCR schicken.

Kennt jemand eine andere Option? Zumindest könnte man das Drucken im batch machen...

Karsten
 
  • Like
Reaktionen: Zoul

Zoul

Benutzer
Mitglied seit
04. Jan 2023
Beiträge
83
Punkte für Reaktionen
17
Punkte
8
Oh Mann. Stimmt. An diese Art der Verschlüsselung habe ich noch gar nicht gedacht. Danke!
 

Zoul

Benutzer
Mitglied seit
04. Jan 2023
Beiträge
83
Punkte für Reaktionen
17
Punkte
8
Video Nummer 7 hat mir leider nicht weitergeholfen da ich ja nicht alle Leerzeichen im Dateinamen ändern will @Struppix , sondern nur, was bei "Rechnungsnummer" herauskommt. Ich habe halt von RegEx sowas von Null Ahnung und werde es in diesem Leben wohl auch nicht mehr lernen.

Danke Dir. Und danke auch für den Kanal, der dennoch sehr hilfreich ist.

LG

Mick
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
882
Punkte für Reaktionen
184
Punkte
63
Video Nummer 7 hat mir leider nicht weitergeholfen da ich ja nicht alle Leerzeichen im Dateinamen ändern will @Struppix , sondern nur, was bei "Rechnungsnummer" herauskommt.
Hallo Mick,
ok, verstehe.
Nun kurz zur Erklärung ... man kann natürlich das Suchergebnis in verschiedene "Variablen/Gruppen" teilen oder zusammenfassen, und das dann nachfolgend wieder zu einem String zusammensetzen. Nur leider führen wir ja die RegEx auf der SYN nicht direkt aus, sondern übergeben quasi an synOCR nur die RegEx als "Argument". Somit geht das in unserem Fall so leider nicht.
Ich hoffe ich habe das einigermaßen richtig ausgedrückt @geimist. Mit diesem Problem kämpfe ich seit Monaten, also im Prinzip Teilergebnisse, für eine spätere Umbenennung abzugreifen. Das wäre sicherlich eine tolle Funktion, da sie viele neue Optionen böte. Alternativ wie schon diskutiert "mehrzeilige" Argumente.

Somit bleibt uns nur der Weg, die einzelnen Teile der Rechnungsnummern in verschiedene Regeln zu packen. Dazu müssen wir erkunden, welche verschiedenen Rechnungsnummern Du suchst, also viele Beispiele.
Wenn ich Dir dabei helfen soll, dann brauche ich also Auszüge (quasi Kopien) der PDF mit mindestens 1 Zeile davor und einer Zeile dahinter und gekennzeichneter gesuchter Rechnungsnummer in eine Datei.

bspw:
Dies ist Ihre Rechnung
mit der Rechnungsnummer 123 456 789 / 0113 Beleg XY
vom 17.32.21

Dies ist Ihre Rechnung
mit der Rechnungsnummer 146 564564 - 074 djhcskjhd
vom 05.56.25

Sowas in der Art. Bitte achte darauf, dass die Formatierung mit dargestellt wird. Also im laufenden Text, in einer Tabelle oder was auch immer. Am besten aus den pdf mit OCR kopieren.

Gruß
Karsten
 
  • Like
Reaktionen: Zoul

claus_hipp

Benutzer
Mitglied seit
11. Jan 2022
Beiträge
11
Punkte für Reaktionen
4
Punkte
3
Hey Zusammen, kurze Frage, kennt Ihr das oder habt Ihr eine Lösung dafür?
Hab heute etwas gescannt und musste festellen, dass die OCR immer Anstelle von Leerzeichen, ein Unicodezeichen "ZWNBSP" vor und nach einem Leerzeichen gesetzt hat. Damit schlägt nun keine Regel mehr zu...

Ein ähnliches Dokumente, gescannt vor wenigen Wochen (2-3) hat dieses Problem nicht. Hab auch nix geupdated oder ähnliches...
 

Anhänge

  • myOCR.png
    myOCR.png
    117,6 KB · Aufrufe: 2

Zoul

Benutzer
Mitglied seit
04. Jan 2023
Beiträge
83
Punkte für Reaktionen
17
Punkte
8
Bist Du sicher, dass die Anleitung für das synOCR_YAMLRULEFILE korrekt ist @geimist ? Ich will nicht klugscheissern und habe von YAML keine Ahnung, aber das Englisch ist falsch:

# "starts with", "does not starts with", #
# "ends with", "does not ends with",

Es muss heissen "does not START with" und "does not END with". Aber vielleicht wird es ja dennoch korrekt interpretiert.

LG

Mick
 

claus_hipp

Benutzer
Mitglied seit
11. Jan 2022
Beiträge
11
Punkte für Reaktionen
4
Punkte
3
Danke für die schnelle Hilfe Kartsten, ja, es lag an der Einstellung .. ocrmypdf:latest -> also scheinbar ein Update des Dockercontainers.
Lösung: In den synOCR DSM Einstellungen unter "OCR Optionen und Umgebung -> "zu verwendendes Dockerimage" Habe jetzt auf: jbarlow83/:eek:crmyppdf:v12.7.2. eingestellt. Damit funktioniert es wieder top!
 
  • Like
Reaktionen: geimist


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat