synOCR synOCR - GUI für OCRmyPDF

DeeKay1 · 30. Sep. 2024

Gthorsten schrieb:
Hallo @DeeKay1 ,
Irhendwie ist mein login nicht ok gewesen.
Habe länger keine Benachrichtigung mehr bekommen, und da ich auf der Arbeit Land unter war, habe ich auch im forum nicht gelesen. .
Sind die Probleme die du gemeldet hattest schon gefixed?
Sonst schaue ich mir das ganze mal sn
Gruß
Thorsten

Na großartig, diesmal habe ich keine Benachrichtigung bekommen

Ich hatte einen PR erstellt, den @geimist heute approved hat. Weshalb ich mir dann auch dachte: Kuckste doch mal wieder ins Forum was da so los ist und prompt deinen Ping gesehen habe.

Gthorsten · 30. Sep. 2024

Habe einen neuen PR erstellt mit der language setting und mit einem Bugfix für ein anderes Problem mit einem Datum.
Dein pr ist auch mit drin, bzw Stephan hat den übernommen.
Ist schon bei Stephan

schlomo · 01. Okt. 2024

Gthorsten schrieb:
Das sollte aber eigentlich kein Problem sein. Kannst du mal aus dem logfile die Zeile kopieren die Probleme macht?

Ich habe mir den regulären Ausdruck in search_all_numeric_dates in der entsprechenden Python Datei angesehen (find_dates.py). Ich denke diese Anpassung sollte das Problem lösen:

Code:

# D.M.Y (mit und ohne führende Nullen)
(r"((\s)|(\())([1-9]|0[1-9]|[12][0-9]|3[01])(\s?)(\.)(\s?)([1-9]|0[1-9]|1[0-2])(\s?)(\.)(\s?)(\d{4})((\.|\,|\s|\))|\s*$)", "DMY", True)

Folgende Anpassung könnte auch die Erkennung von zweistelligen Jahreszahlen verbessern:

Code:

# D.M.Y (mit Unterstützung für zweistellige und vierstellige Jahreszahlen)
(r"((\s)|(\())([1-9]|0[1-9]|[12][0-9]|3[01])(\s?)(\.)(\s?)([1-9]|0[1-9]|1[0-2])(\s?)(\.)(\s?)(\d{2}|\d{4})((\.|\,|\s|\))|\s*$)", "DMY", True)

Hier noch ein paar weitere Vorschläge

Code:

regexlist = [
    # D.M.Y mit 4-stelligen Jahreszahlen
    (r"((\s)|(\())(0[1-9]|[12][0-9]|3[01])(\s?)(\.)(\s?)(0[1-9]|1[0-2])(\s?)(\.)(\s?)(\d{2}|\d{4})((\.|\,|\s|\))|\s*$)", "DMY", True),
    
    # Monat Jahr (März 2024)
    (r"\b([a-zA-ZäÄöÖüÜß]{3,12})\s+(\d{4})\b", "MY", True),

    # US-Format MM/DD/YYYY oder MM-DD-YYYY
    (r"((\s)|(\())(0[1-9]|1[0-2])(\s?)(\/|-)(\s?)(0[1-9]|[12][0-9]|3[01])(\s?)(\/|-)(\s?)(\d{4})((\.|\,|\s|\))|\s*$)", "MDY", True),

    # DD. Monat YYYY (z. B. 12. März 2024)
    (r"((\s)|(\())([1-9]|[12][0-9]|3[01])(\.?)\s?([a-zA-ZäÄöÖüÜß]{3,12})\s+(\d{4})((\.|\,|\s|\))|\s*$)", "DMY", True)
]

Beste Grüße
Schlomo

Gthorsten · 01. Okt. 2024

Stephan hat schon Änderungen bekommen, die das lösen sollten..
Mit der Erkennung von Daten aus unterschiedlichen Sprachen gibt es auch schon Überlegungen, so das der User es auswählen kann. Aber das braucht noch ein wenig Zeit. Da wird es eine ui und eine Code Änderung geben

geimist · 02. Okt. 2024

Gthorsten schrieb:
Stephan hat schon Änderungen bekommen, die das lösen sollten..

… und sind jetzt in der aktuellen Beta (snapshot_build) 1.4.99.3 enthalten.

Hier das Changelog.

Honkytonk · 04. Okt. 2024

geimist schrieb:
Korrekt. @schlomo hat ja mit seinem ScanSnap daselbe Problem. Ich hab keine Ahnung, warum Canon und ScanSnap so verfahren.

Ich glaube, ich konnte das Problem von @schlomo und mir lösen: Mit dem letzten Software-Update ist der ScanSnap zwar endlich direkt in der Lage, auf ein Netzlaufwerk zu scannen, aber er scheint es eben auf die von geimist beschriebene "problematische" Weise zu tun. Im ScanSnap selbst findet sich in den Einstellungen eine Option unter "Wifi-Einstellungen\Scan in Netzwerkordner\SMB 1.0/CIFS verwenden". Wird das aktiviert, geht der Scan auch von mehrseitigen Dokumenten direkt in den Input-Ordner von SynOCR völlig problemlos!

Dass es diese Einstellung überhaupt gibt, war mir nicht bewusst: Ich hatte sie auch nicht vermisst, weil der Scan in einen Netzwerk-Ordner ja auch ohne sie grundsätzlich funktioniert.

geimist · 04. Okt. 2024

Vielen Dank für den Hinweis. Ich hab ihn gleich mal in die FAQs aufgenommen, auch wenn sich mir der Zusammenhang nicht wirklich erschließt.

Honkytonk · 04. Okt. 2024

Okay, jetzt verstehe ich die Welt gar nicht mehr: Vorhin hat es definitiv mehrfach geklappt, jetzt gibt es wieder Errorfiles. Ein Muster dahinter kann ich nicht erkennen. Schade, zu früh gefreut. @geimist Tut mir leid, wenn du die FAQs nun doch wieder zurückdrehen musst.

Yippie · 13. Okt. 2024

Eine Frage zur YML-Datei:

Kann ich irgendwie über eine Regel erreichen, dass das Datum unten mit Pfeil markiert, statt des Datums bei (1) oder (2) erkannt und für den Dateinamen verwendet wird:

YAML:

    tagname: "§yocr4-§mocr-§docr Nachweis Scheckheft"

Struppix · 13. Okt. 2024

Guten Morgen,
denke schon. Nur die Frage ist nicht eindeutig.
Wie erzeugst Du denn das Datum? Über die GUI oder per Regel, also wie oben gezeigt?
Und hast Du ein paar Beispiele an denen man sehen könnte, ob es ein sich wiederholendes Muster gibt?

Karsten

Yippie · 13. Okt. 2024

Weitere Details zur Regel, eigentlich eine der einfachsten überhaupt, die ich habe ;-)

YAML:

KRAMMER_3:
    tagname: "§yocr4-§mocr-§docr Nachweis Scheckheft"
    tagname_RegEx: ""
    targetfolder: "/Autohaus/"
    condition: all  
    subrules:
    - searchstring: (?i)(Komplettnachweis|Service-Nachweis)
      searchtyp: contains
      isRegEx: true
      source: content
      casesensitive: true

Der oben gezeigte Screenshot aus dem gescannten Dokument ist immer wieder gleich, wenn ich ins Autohaus zum Kundendienst fahre. Der Screenshot zeigt dabei den Beginn der A4-Seite.

Struppix · 13. Okt. 2024

Hallo,
das meinte ich nicht. Sondern ist auf den zu durchsuchenden Dokumenten das "Bild" was Du oben zeigst, also quasi "Fahrzeuginspektion mit Ölwechsel" zB. immer gleich? Wenn nicht gibt es immer wiederkehrende Gemeinsamkeiten?
Wir brauchen ja etwas, an dem wir uns orientieren können. Oder vielleicht auch das, ist es immer das Dritte Datum?

Karsten

Yippie · 13. Okt. 2024

Ich habe unten die letzten drei Dokumente angefügt, es steht immer "Datum" als Überschrift vor dem gesuchten Datum und ja, es ist immer das dritte Datum, nach dem Abschnitt "Fahrzeugdaten".

Der Text danach variiert leicht: "Eintragung der Werkstatt" <> "Inspektion mit Ölwechsel".

Struppix · 13. Okt. 2024

Hallo,
so nun hatte ich ein wenig Zeit. Schreib mal ob es funktioniert.

Code:

KRAMMER_3:
    tagname: §tagname_RegEx Nachweis Scheckheft
    targetfolder: /Autohaus/
    tagname_RegEx: (?is)(?:(?:19|20)(?:[0-9]{2})(?:[\,\.\-\_\;\:\•\|\/\\\*\ ]{1,3})(?:[0-3]{0,1}[0-9]{0,1})(?:[\,\.\-\_\;\:\•\|\/\\\*\ ]{1,3})(?:[0-3]{0,1}[0-9]{0,1})).+?(?:(?:19|20)(?:[0-9]{2})(?:[\,\.\-\_\;\:\•\|\/\\\*\ ]{1,3})(?:[0-3]{0,1}[0-9]{0,1})(?:[\,\.\-\_\;\:\•\|\/\\\*\ ]{1,3})(?:[0-3]{0,1}[0-9]{0,1})).+?\K(?:(?:19|20)(?:[0-9]{2})(?:[\,\.\-\_\;\:\•\|\/\\\*\ ]{1,3})(?:[0-3]{0,1}[0-9]{0,1})(?:[\,\.\-\_\;\:\•\|\/\\\*\ ]{1,3})(?:[0-3]{0,1}[0-9]{0,1}))
    multilineregex: true
    condition: all 
    subrules:
    - searchstring: (?i)(Komplettnachweis|Service-Nachweis)
      searchtyp: contains
      isRegEx: true
      source: content
      casesensitive: true

Gruß Karsten

PS: Ich muss mal schauen, wenn etwas mehr Zeit, ob es nicht eine galantere Methode gibt.

Yippie · 14. Okt. 2024

Vielen herzlichen Dank, das hat wunderbar funktioniert!

Siehe erzeugte Dateinamen für die Vorlage aus dem Jahr 2023:
2023-07-13 Nachweis Scheckheft.pdf und aus dem Jahr 2022: 2022-11-28 Nachweis Scheckheft.pdf

Die Regel hat exakt das gewünschte Datum gefunden

Ich frage jetzt aber nicht nach, was die ellenlange RegEx macht, muss das Mal in regex101.com testen

Yippie · 21. Okt. 2024

Kann man in der YAML-Datei auch Berechnungen anstellen?

Wenn bspw. die Variable §yocr4 das beim OCR-Prozess erkannte Jahr 2024 enthält, würde ich gerne so was in der Art wie §yocr4 + 1 daraus machen und zwar zur Laufzeit. Es soll also das Jahr 2025 herauskommen.

Ebenfalls in diesem Zusammenhang: Ich nutze die Option

Code:

postscript

um die finale Datei dann an den gewünschten Ort zu verschieben, mittels Linux

Code:

mv

Befehl.

Auch hier stellt sich die Frage, wie ich die synOCR-Variable §yocr4 als Ziel-Verzeichnisname grundsätzlich und des Weiteren, analog zu oben, mit §yocr4 + 1 verwenden kann?

Ich habe bereits so etwas wie mv ..... /wohnung/§yocr4 getestet, dabei wird jedoch erwartungsgemäß nicht §yocr4 durch 2024 ersetzt. Ich erhalten ein neues Verzeichnis, wie ./wohnung/§yocr4.

Daher die Frage, kann ich auch hier irgendwie erreichen, dass das Zielverzeichnis bzw. die Variable korrekt ersetzt wird?

Struppix · 21. Okt. 2024

Hallo,

wieder mal eine Aufgabe ....

Ja man kann in einer RegEx natürlich auch rechnen. Nur geht das bei uns leider nicht, da wir ja auf eine RegEx "Zeile" beschränkt sind, und keine weiteren Befehle mit einbauen können.
Somit müssen wir auf Postscript ausweichen und rechnen dort in der Bash. Die Bash unterstützt nur integere Werte.

Leider erläuterst Du nicht den Zweck oder zeigst mal Dein Script, dass wir verstehen könnten was genau Du suchst.

Also hier ins Blaue eine Test Regel:

YAML:

rule_1001:
    tagname: test
    targetfolder: /autohaus/
    postscript: newtargetdir=$(echo "$(( ${date_yy}+1 ))") && newtargetfile=$(echo "${NewName}" | sed 's/'${date_yy}'/'$(( ${date_yy}+1 ))'/g') && mkdir -p "${output%/*}/${newtargetdir}" && filecount=$(find "${output%/*}/${newtargetdir}" -maxdepth 1 -type f -name "${newtargetfile}*.pdf" -printf '.' | wc -c) && if [ "${filecount}" -eq 0 ]; then mv "${output}" "${output%/*}/${newtargetdir}/${newtargetfile}.pdf"; else mv "${output}" "${output%/*}/${newtargetdir}/${newtargetfile} (${filecount}).pdf"; fi
    condition: all
    subrules:
    - searchstring: test
      searchtyp: contains

Der Postscript erzeugt Dir ein Vereichnis im targetfolder .
Weiterhin wird das Datum im Dokumenten Namen auf "Jahr +1" geändert.

Für den Fall, dass Du nur den Ordner mit "Jahr 1" benötigst, aber mit dem original umbenannten Dokumenten Namen:

YAML:

rule_1001:
    tagname: test
    targetfolder: /autohaus/
    postscript: newtargetdir=$(echo "$(( ${date_yy}+1 ))") && newtargetfile=$(echo "${NewName}") && mkdir -p "${output%/*}/${newtargetdir}" && filecount=$(find "${output%/*}/${newtargetdir}" -maxdepth 1 -type f -name "${newtargetfile}*.pdf" -printf '.' | wc -c) && if [ "${filecount}" -eq 0 ]; then mv "${output}" "${output%/*}/${newtargetdir}/${newtargetfile}.pdf"; else mv "${output}" "${output%/*}/${newtargetdir}/${newtargetfile} (${filecount}).pdf"; fi
    condition: all
    subrules:
    - searchstring: test
      searchtyp: contains

Bitteschön
Gruß Karsten

mobile-freak · 16. Nov. 2024

Hallo zusammen,

ich bin soeben auf SynOCR gestoßen und habe es auch schon auf meiner Synology eingerichtet.
Der erste Eindruck TOP! Danke an die Entwickler!

Eine Frage Offtopic jedoch irgendwie doch im Zusammenhang hierzu.
Da ich keinen Dokumentenscanner habe, möchte ich über mein Smartphone/eine App (Android) Dokumente einscannen und an der richtigen Stelle ("_INPUT") ablegen und SynOCR arbeiten lassen.

Gibt es eine etablierte Lösung die von einigen genutzt wird?

Und noch eine weitere Frage.
Welche Regel kann ich verwenden um Rechnungen die für mich und Rechnungen für meine Frau in eigenständige Ordner ablegen.
Bspw. \Rechnungen\userA
\Rechnungen\userB

geimist · 16. Nov. 2024

mobile-freak schrieb:
Gibt es eine etablierte Lösung die von einigen genutzt wird?

Mobil scanne ich fast nie. Wenn, dann nutze ich "Scanner Pro" von Readdle, der per WebDAV die Dokumente auf das NAS schiebt. Gibt es die App für Android? Ich weiß es nicht. Da ist die Auswahl aber riesig.
Wenn man regelmäßig scannt (also möglichst alles papierlos machen möchte), sollte man über einen Dokumentenscanner nachdenken (zB. der Brother 1700w).

mobile-freak schrieb:
Welche Regel kann ich verwenden um Rechnungen die für mich und Rechnungen für meine Frau in eigenständige Ordner ablegen.

Für alles, wo Bedingungen greifen sollen, wäre eine Konfiguration über eine YAML-Regeldatei nötig. @Struppix ist da unser Fachmann, der auch einen Excel basierten Editor erstellt hat.
Einen Einstieg findest du HIER und HIER.

Struppix · 16. Nov. 2024

mobile-freak schrieb:
Und noch eine weitere Frage.
Welche Regel kann ich verwenden um Rechnungen die für mich und Rechnungen für meine Frau in eigenständige Ordner ablegen.
Bspw. \Rechnungen\userA
\Rechnungen\userB

Hallo und herzlich willkommen.
Sorry war unterwegs, daher etwas verspätet.

Nun es gibt wie immer mehrere Möglichkeiten.
Wenn Du es einfach magst dann könnte es zb. so aussehen:

YAML:

# synOCR_YAMLRULEFILE   # keep this line!


rule_1001:
    tagname: Rechnung_userA
    targetfolder: /volume1/<Dein Pfad>/Rechnungen/userA
    condition: all
    subrules:
    - searchstring: Rechnung
      searchtyp: contains
    - searchstring: userA
      searchtyp: contains


rule_1002:
    tagname: Rechnung_userB
    targetfolder: /volume1/<Dein Pfad>/Rechnungen/userA
    condition: all
    subrules:
    - searchstring: Rechnung
      searchtyp: contains
    - searchstring: userB
      searchtyp: contains

Soll es etwas umfangreicher sein dann zB. so:

YAML:

# synOCR_YAMLRULEFILE   # keep this line!


rule_1001:
    tagname: §tagname_RegEx_userA
    targetfolder: /volume1/<Dein Pfad>/Rechnungen/userA
    tagname_RegEx: (?i)(Rechnung|Invoice|Lieferschein|delivery note|Quittung|receipt|Bestellung|Online-Bestellung|Online-Auftrag|order|Barkauf|Barverkauf|cash purchase|Kundenbeleg|Verkauf|sale|Einkauf|purchasing|Kasse|cash desk|BON)
    condition: all
    subrules:
    - searchstring: (?i)(Rechnung|Invoice|Lieferschein|delivery note|Quittung|receipt|Bestellung|Online-Bestellung|Online-Auftrag|order|Barkauf|Barverkauf|cash purchase|Kundenbeleg|Verkauf|sale|Einkauf|purchasing|Kasse|cash desk|BON)
      searchtyp: contains
      isRegEx: true
    - searchstring: userA
      searchtyp: contains


rule_1002:
    tagname: §tagname_RegEx_userB
    targetfolder: /volume1/<Dein Pfad>/Rechnungen/userB
    tagname_RegEx: (?i)(Rechnung|Invoice|Lieferschein|delivery note|Quittung|receipt|Bestellung|Online-Bestellung|Online-Auftrag|order|Barkauf|Barverkauf|cash purchase|Kundenbeleg|Verkauf|sale|Einkauf|purchasing|Kasse|cash desk|BON)
    condition: all
    subrules:
    - searchstring: (?i)(Rechnung|Invoice|Lieferschein|delivery note|Quittung|receipt|Bestellung|Online-Bestellung|Online-Auftrag|order|Barkauf|Barverkauf|cash purchase|Kundenbeleg|Verkauf|sale|Einkauf|purchasing|Kasse|cash desk|BON)
      searchtyp: contains
      isRegEx: true
    - searchstring: userB
      searchtyp: contains


rule_1003:
    tagname: §tagname_RegEx
    tagname_RegEx: (?i)(?>(([a-z0-9\-\p{L}]+?[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}[a-z0-9\-\p{L}]+?[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}[a-z0-9\-\p{L}]*[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}[a-z0-9\-\p{L}]+)))\b\N*?\b(?=\W{1,}[a-z\p{L}]*[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,2}[a-z0-9\p{L}]*[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,2}[a-z\p{L}]+[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{1,3}\d{0,4}[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}\d{0,4}[a-z\p{L}]{0,2}\b\R*\b[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}[a-z\p{L}]{0,2}[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}\d{5}[\.\,\-\:\;\•\|\&\/*\!\ ]{0,3}[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}[a-z\p{L}]*[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}[a-z\p{L}]+)
    condition: all
    subrules:
    - searchstring: (GmbH|mbH|GbR|\sAG\s|\sKG\s|OHG|e.K.|Meister(betrieb)*)
      searchtyp: is not
      isRegEx: true
    - searchstring: (?>(([a-z0-9\-\p{L}]+?[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}[a-z0-9\-\p{L}]+?[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}[a-z0-9\-\p{L}]*[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}[a-z0-9\-\p{L}]+)))\b\N*?\b(?=\W{1,}[a-z\p{L}]*[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,2}[a-z0-9\p{L}]*[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,2}[a-z\p{L}]+[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{1,3}\d{0,4}[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}\d{0,4}[a-z\p{L}]{0,2}\b\R*\b[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}[a-z\p{L}]{0,2}[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}\d{5}[\.\,\-\:\;\•\|\&\/*\!\ ]{0,3}[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}[a-z\p{L}]*[\.\,\-\:\;\•\|\&\/*\!\(\)\ ]{0,3}[a-z\p{L}]+)
      searchtyp: contains
      isRegEx: true
      multilineregex: true


rule_1004:
    tagname: §tagname_RegEx
    tagname_RegEx: (?i)(.+(GmbH|mbH|GbR|\sAG\s|\sKG\s|OHG|e.K.|Meister(betrieb)*))
    condition: all
    subrules:
    - searchstring: (GmbH|mbH|GbR|\sAG\s|\sKG\s|OHG|e.K.|Meister(betrieb)*)
      searchtyp: contains
      isRegEx: true


rule_1005:
    tagname: §tagname_RegEx
    tagname_RegEx: (?i)\b(?:[a-z\p{L}]+[\.\-\:\;\!\(\)\[\]\ ]+[a-z0-9\p{L}\!]+)([\.\-\:\;\!\(\)\[\]\ ]*[a-z0-9\p{L}]*[\.\-\:\;\!\(\)\[\]\ ]*[a-z0-9\p{L}]*)\b(?=.*\s\d{1,3}[\,\.]\d{2,4}[^\.](\p{Sc}|EUR){0,1})
    condition: all
    subrules:
    - searchstring: \b(?:[a-z\p{L}]+[\.\-\:\;\!\(\)\[\]\ ]+[a-z0-9\p{L}\!]+)([\.\-\:\;\!\(\)\[\]\ ]*[a-z0-9\p{L}]*[\.\-\:\;\!\(\)\[\]\ ]*[a-z0-9\p{L}]*)\b(?=.*\s\d{1,3}[\,\.]\d{2,4}[^\.](\p{Sc}|EUR){0,1})
      searchtyp: contains
      isRegEx: true


rule_1006:
    tagname: §tagname_RegEx
    tagname_RegEx: (?i)(?=(Bezeichnung|Benennung|Designation|Beschreibung|Description|\bArtikel[^:]|Article[^:]\b))(.+?\R{1,3}?).+?(\W+\S*\s*\d{5,}?\s*)\K(?:[a-z\p{L}]+[\.\-\:\;\! ]*[a-z\p{L}\\\!]*[\.\-\:\;\! ]*[a-z0-9\p{L}]*[\.\-\:\;\! ]*[a-z0-9\p{L}]*)
    multilineregex: true
    condition: all
    subrules:
    - searchstring: \b(?:[a-z\p{L}]+[\.\-\:\;\!\(\)\[\]\ ]+[a-z0-9\p{L}\!]+)([\.\-\:\;\!\(\)\[\]\ ]*[a-z0-9\p{L}]*[\.\-\:\;\!\(\)\[\]\ ]*[a-z0-9\p{L}]*)\b(?=.*\s\d{1,3}[\,\.]\d{2,4}[^\.](\p{Sc}|EUR){0,1})
      searchtyp: does not contain
      isRegEx: true
    - searchstring: (?=(Bezeichnung|Benennung|Designation|Beschreibung|Description|\bArtikel[^:]|Article[^:]\b))(.+?\R{1,3}?).+?(\W+\S*\s*\d{5,}?\s*)\K(?:[a-z\p{L}]+[\.\-\:\;\! ]*[a-z\p{L}\\\!]*[\.\-\:\;\! ]*[a-z0-9\p{L}]*[\.\-\:\;\! ]*[a-z0-9\p{L}]*)
      searchtyp: contains
      isRegEx: true
      multilineregex: true


rule_1007:
    tagname: Rechnungsnummer_§tagname_RegEx
    tagname_RegEx: (?i)(?|(((Rechnung\S{0,2})|(Beleg\S{0,2})|(Lieferschein\S{0,2}))\s*(([N|n]um\S*|Nr[\.\-\:\;\/\|\s]{0,3})|(RE[\.\-\:\;\/\|\s]NR)\S*)*)\s+?\K(\S*\s*?(\s*\d)+))+\b
    condition: all
    subrules:
    - searchstring: (?|(((Rechnung\S{0,2})|(Beleg\S{0,2})|(Lieferschein\S{0,2}))\s*(([N|n]um\S*|Nr[\.\-\:\;\/\|\s]{0,3})|(RE[\.\-\:\;\/\|\s]NR)\S*)*)\s+?\K(\S*\s*?(\s*\d)+))+\b
      searchtyp: contains
      isRegEx: true

Ein Hinweis:
Beim Pfad sollte da eigentlich ein "/" stehen. Und ist das Verzeichnis nicht vorhanden, wird es erzeugt.

Falls Fragen oä. einfach melden.

Gruß Karsten

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat