Stephan,
gibt es eine Möglichkeit die
Suche nach einem Datum, in einem gescannten Dokument, zu beeinflussen?
Beispielsweise durch die Angabe eines "Suchmusters" (RegEx) in der YAML-Datei, entweder in der Regel selbst oder in einer Subrule?
Damit meine ich jetzt nicht einen einfachen Suchtext anzugeben, sondern, wie synOCR generell das Datum für das aktuell gescannte Dokument finden soll, um damit die Tags, wie "§yocr4-§mocr-§docr" zu ersetzen.
Beispiel für eine mögliche Angabe "dateformat" in der YAML-Datei:
YAML:
RENTE_1:
tagname: "§yocr4-§mocr-§docr Renteninformation"
tagname_RegEx: ""
targetfolder: "/Rente/"
condition: all
dateformat: "dd.mm.yyyy" oder dateformat: "Datum dd.mm.yyyy" oder dateformat_RegEx: "Datum ^\s*(3[01]|[12][0-9]|0?[1-9])\.(1[012]|0?[1-9])\.((?:19|20)\d{2})\s*$"
subrules:
- searchstring: "Renteninformation"
searchtyp: contains
isRegEx: false
source: content
casesensitive: True
Hintergrund der Frage, siehe folgenden Ausschnitt eines Dokuments:
Aktuell wird das Datum bei (1) erkannt, ich hätte jedoch das Datum bei (2). Mit dem dateformat, wie oben angegeben, könnte ich mir vorstellen, das synOCR dann das Datum bei (2) findet, da "passender".
Gut, das Ganze ist sicherlich nicht wasserdicht, denn mit diesem Datumsformat könnten auch weitere Datum im Dokument in Frage kommen.
Möglicherweise könnte man das Ganze jedoch noch weiter aufbohren indem man eine weitere Option einbaut, sowas wie "dateindex: 2" und damit die Erkennung anweist, das zweite erkannte Datum zu verwenden?
Es gibt ja bereits eine Reihe von Option im GUI das Datum zu finden oder zu ignorieren, jedoch dürfte keine davon das ermöglichen wie ich oben dargestellt habe, oder?
Btw, im GUI existieren ja eine Reihe von Optionen, die ich in der YAML-Datei so nicht bei der jeweiligen Regel oder global einstellen kann, oder irre ich mich da? Bspw. alle unten stehenden:
Konkret die oben bei (1) markierte Option, kommt dem, was ich gerne hätte, ja schon sehr nahe, jedoch kann ich nur entweder das 1. Datum oder das jüngste Datum suchen lassen.
Wenn man diese Option noch ausbauen könnte, wie: 1. Treffer, 2. Treffer oder ganz einfach x. Treffer,
und in die YAML-Datei als Option einer Regel integrieren würde (nicht global, da jedes Dokument unterschiedliche behandelt werden könnte), dann wäre dies die Lösung des "Problems".
Michael