EMAIL:
tagname: "§yocr4-§mocr-§docr EMail §tagname_RegEx"
tagname_RegEx: "(?i)(Betre.*: *)\K.*"
targetfolder: /EMail/
condition: all
subrules:
- searchstring: "m.ok@mail.de"
searchtyp: contains
isRegEx: false
multilineregex: false
source: content
casesensitive: false
Betreff: Synology NVMe
Von: Hans Otto <m.ok@mail.de>
Datum: 27.12.2022, 21:00
An: Werner Maier <w.m@baendiger.de>
Da der Textlayer direkt in die Datei geschrieben wird, ist es grundsätzlich unabhängig, welches OS du nutzt.Ich kann ja, soweit ich das bisher verstanden habe,
a) einfach nur pdf Dateien durchsuchbar machen, dh. alles im Zielordner kann von entsprechenden anderen Programmen durchsucht werden. Geht das auch aus Windows heraus?
Ja, regelbasierte Ordner werden automatisch erzeugt.b) zusätzlich über Regeln in der yaml Datei auch Dateien Kategorisieren und in entsprechende Ordner ablegen (kann synOCR auch Ordner erzeugen?).
Nein, eine Vorlage gibt es bisher nicht. Das wäre prinzipiell eine gute Idee, aber die Regeln sind halt sehr granular einstellbar, was wiederum einer globalen Vorlage entgegensteht.Für b) muss ich dann ja aber ALLE tags und Kategorien (und Zielordner?) schon im voraus angeben? Das ist ja ein enormer Aufwand, hier alles abzubilden, oder?
In meinem Bankprogramm sind z.B. schon ganz viele (Standard) -Kategorien und -Regeln definiert. Gibt es sowas hier auch?
Vielleicht kann @Struppix mehr dazu sagen.Ich steh wieder Mal komplett aufm Schlauch mit einer RegEx in der yaml-Datei.
In Verbindung mit RegEx wird mit BashWelchen RegEx Dialekt verwendet eigentlich synOCR? Nehme an den von Python, oder?
grep
mit -P
(Pearl Syntax) aufgerufen. Nur so ist z.B. lookahead / lookbehind möglich.Guten Morgen,Was genau stört den Interpreter hier? Das \K findet sich auch im Wiki als Beispiel und die doppelten Anführungszeichen benötige ich ja wegen dem : im eigentlichen RegEx.
(?i)(Betre.*\:)\s*\K.*
(?i)(Betre.*\:\s*)\K.*
(?i)(Betre.+?\:)\s+?\K.*
dies ist ein test
Betreff : meine Mail
von gestern
Das mit dem "verteilt über mehrere Zeilen" verstehe ich nicht ganz.Ich möchte zuverlässig PDFs anhand deren Inhalt erkennen, die bspw. aus einem Mail-Programm wie Thunderbird gedruckt wurden.
Wie müsste nun ein Searchstring aussehen, damit ich bspw. "Betreff:", "Von:", "Datum:" und "An:", verteilt über mehrere Zeilen, erkennen kann?
Was meinst du damit? Ich will ja Dokumente aufs NAS scannen, dort OCRen und ggf. wegsortieren. Ich will die aber nicht dann auch noch wieder auf dem PC haben - höchstens vom PC auf den/die Netzwerkordner zugreifen wo die Dokumente liegen. Und dann wäre eine Suche nach (OCR)Stichworten natürlich hilfreich.Ich nutze im privaten Umfeld eh einen Abgleich des Outputordners mit meinem Client und hier wird kommen die Dateien automatisch in den Indes des OS
Das mit den alternativen RegEx kann ich leider erst testen, wenn wieder zuhause. Vielen Dank schon Mal!Das mit dem "verteilt über mehrere Zeilen" verstehe ich nicht ganz.
Um eine E-Mail-PDF über entsprechende YAML-Regeln zuverlässig zu erkennen, habe ich mir die Wörter "Betreff, Von, Datum, An" ausgesucht. Diese sollten somit mein(e) Searchstring(s) sein.Betreff: Synology NVMe
Von: Hans Otto <m.ok@mail.de>
Datum: 27.12.2022, 21:00
An: Werner Maier <w.m@baendiger.de>
So ist es.Vier Subrules definieren mit jeweils einem der vier o.g. Wörter.
Hierzu einfach jeweils eine weitere Subrule hinzu nehmen.Zur noch genaueren Erkennung, könnte ich mir noch vorstellen, ein RegEx zu basteln, welches in der An: Zeile zusätzlich noch eine E-Mail-Adresse findet. Gleiche auch für die Zeile mit dem Wort Von:
Mal ne ganz dumme Frage. Wieso eigentlich so kompliziert.Die Fallback-Regel soll sicherstellen, dass wenn keine der anwendbaren Regeln greift, einfach nur der originale Dateiname zurückgegeben wird. Problem ist wohl eher, dass diese Fallback-Regel nicht exakt genug definiert ist bzw. auch gar nicht definierbar ist und somit zusätzlich zur Anwendung kommt.
LEBENSVERSICHERUNG
equal = Suchbegriff: LV-182828
tagname_RegEx = yyyy-mm-dd Lebensversicherung
RENTE
equal = Suchbegriff: RV-12344
tagname_RegEx = yyyy-mm-dd Rentenversicherung
AAAA_Fallback
not equal = Suchbegriff: LV-182828, RV-12344
tagname_RegEx = yyyy-mm-dd
Die YAML dazu:target: /volume1/homes/*****/Dokumente/Karstens Dokumente/synOCR/Scan_out_OCR/Versicherungen\Sozialversicherung/2023-07-05-Meldebescheinigung Sozialversicherung Barbara.pdf
tagname: Meldebescheinigung Sozialversicherung Barbara
targetfolder: Versicherungen\Sozialversicherung
condition: all
subrules:
- searchstring: Meldebescheinigung
searchtyp: contains
isRegEx: false
source: content
casesensitive: true
- searchstring: Sozialversicherung
searchtyp: contains
isRegEx: false
source: content
casesensitive: true
- searchstring: Barbabra
searchtyp: contains
isRegEx: false
source: content
casesensitive: true
Ändere mal in Deiner YAML den \ durch einen /ein \ anstelle eines / angegeben wird
Nun hatte eben mal Zeit das zu testen.Könnte ich bspw. in der Regel Lebensversicherung eine Option setzen, dass mit positiver Erkennung, alle weiteren Regeln obsolet sind, dann würde die Fallback Regeln nicht mehr greifen und mir den Dateinamen nicht ein zweites Mal anpassen.
# synOCR_YAMLRULEFILE # keep this line!
rule_1001:
tagname: §yocr4_§mocr_§docr_Lebensversicherung
condition: all
subrules:
- searchstring: LV-182828
searchtyp: contains
isRegEx: false
rule_1002:
tagname: §yocr4_§mocr_§docr_Rentenversicherung
condition: all
subrules:
- searchstring: RV-12344
searchtyp: contains
isRegEx: false
Ich habe nun die Antwort vom Canon Support bzgl. NTLMv1 und dem PDF Thema erhalten:@geimist der Einzeiler per Aufgabenplaner funktioniert soweit gut. Besten Dank dafür!
Habe dem Canon-Support bzgl. der Art die PDF-Datei auf dem Netzlaufwerk zu schreiben geschrieben.
Leider enttäuschend. Umso mehr der Aufruf an die Community, die ebenfalls das Problem mit Canon Produkten hat, den Support zu kontaktieren. Je mehr Leute sich darüber beschweren, desto höher wird die Priorität dafür bei Canon.Vielen Dank für Ihre Anfrage zu Ihrem MAXIFY MB5150.
Leider kann ich von dieser Stelle nur bestätigen, dass das MAXIFY MB5150 das Protokoll NTLMv2 nicht unterstützt. Aktuell kann ich Ihnen dies nur so mitteilen und ich werde Ihren Wunsch nach einem Update der Gerätesoftware an die zuständigen Stellen in unserem Hause weitergeben.
Ob es in Zukunft eine Anpassung der Software geben wird, so dass auch NTLMv2 unterstützt wird, kann ich Ihnen leider nicht sagen.
Auch hinsichtlich Ihrer zweiten Anfrage bezüglich der Arbeitsweise des Gerätes beim PDF-Scannen kann ich Ihnen kein Update in Aussicht stellen, sondern auch in diesem Fall nur Ihre Kritik an die zuständigen Stellen weitergeben.
Ich kann nachvollziehen, dass es für Sie enttäuschend ist, dass unser MB5150 lediglich das Protokoll NTLMv1 unterstützt und dass aus Sicherheitsaspekten die Unterstützung von NTLMv2 wünschenswert ist. Supportseitig können wir jedoch leider nichts an den aktuellen Spezifikationen ändern, sondern nur die Kritik zur Kenntnis nehmen und die zuständigen Stellen informieren, dass Sie eine Änderung hinsichtlich der Unterstützung der NTLM-Protokolle wünschen.
Ich danke Ihnen für Ihr Verständnis.
Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.
Als Dankeschön schalten wir deinen Account werbefrei.