synOCR synOCR - GUI für OCRmyPDF

tomjons · 22. Nov 2021

Hallo an alle,

wie müsste eine YAML aussehen die folgendes machen sollte:

Ursprungsdatei ist eine PDF aus unserer Warenwirtschaft
Name: 2021-444676.pdf

Die Datei beinhaltet eine Nummer die in den Dateinamen geschrieben werden soll. (im Anhang gelb markiert)

Die Zieldatei sollte dann folgenden Namen bekommen

137247_2021-444676

Dabei ist "137247" eine Nummer im Dokument. Und findet sich in folgender Zeile

Ihr Beleg: 137247/ 137247

siehe Anhang

geimist · 22. Nov 2021

Versuche mal (?<=(^Ihr Beleg:[\s]+){1})[0-9]+

Das sollte die Zeile suchen, welche mit Ihr Beleg: beginnt und liefert die anschließenden Zahlen.
Vielleicht hat jemand noch eine bessere Lösung. Regex ist so gar nicht meins …

(regexr.com)

tomjons · 22. Nov 2021

geimist schrieb:
Versuche mal (?<=(^Ihr Beleg:[\s]+){1})[0-9]+

Das sollte die Zeile suchen, welche mit Ihr Beleg: beginnt und liefert die anschließenden Zahlen.
Vielleicht hat jemand noch eine bessere Lösung. Regex ist so gar nicht meins …

wo genau muss ich deinen Code rein schreiben ?

Code:

# synOCR_YAMLRULEFILE
tagrulename1:
    tagname: Ihr Beleg
    targetfolder: "/<path>/"
    tagname_RegEx:
    condition: all
#    subrules:
#    - searchstring: foundme
#      searchtyp: contains
#      isRegEx: false
#      source: content
#      casesensitive: true
#    - searchstring: dontfoundme
#      searchtyp: is not
#      isRegEx: false
#      source: content
#      casesensitive: false

geimist · 22. Nov 2021

Gute Frage

Ich hatte das damals für einen User eingebaut und nie selbst benutzt.

Probiere mal so:

YAML:

tagRegel1:
    tagname:
    targetfolder:
    tagname_RegEx: (?<=(^Ihr Beleg:[\s]+){1})[0-9]+
    condition: any
    subrules:
    - searchstring: (?<=(^Ihr Beleg:[\s]+){1})[0-9]+
      searchtyp: contains
      isRegEx: true
      source: content
      casesensitive: false

tomjons · 22. Nov 2021

Leider klappt es nicht. Es wird eine Datei mit Namen (2).pdf erstellt.
Habe das Log-File angehangen.

Code:

# synOCR_YAMLRULEFILE
tagRegel1:
    tagname: Ihr Beleg
    targetfolder: "/<path>/"
    tagname_RegEx: (?<=(^Ihr Beleg:[\s]+){1})[0-9]+
    condition: any
    subrules:
    - searchstring: (?<=(^Ihr Beleg:[\s]+){1})[0-9]+
      searchtyp: contains
      isRegEx: true
      source: content
      casesensitive: false

geimist · 22. Nov 2021

Ok, davor hatte regex101.com auch gewarnt.
Mit [\s]+ werden nämlich jetzt beliebig viele Leerzeichen hinter Ihr Belegt: erlaubt.
Wie viel Leerzeichen sind da im OCR-Text?

Versuche es mal so (RegEx an beiden Stellen ändern): (?<=(^Ihr Beleg:[\s]{1}){1})[0-9]+
So wird nur eins angenommen. Ich hoffe, es reicht.

Und noch etwas:

Deine Umbenennungssyntax sollte so lauten: $tag_$tit
"Tags im Dateinamen kennzeichnen" sollte leer sein. Jetzt steht da eine Raute (#). Die willst du ja nicht zu Beginn des Namens haben.
Bei targetfolder: "/<path>/" in der Regel solltest du den Wert löschen. Ist ja nur ein Platzhalter.

tomjons · 22. Nov 2021

Also hinter "...Beleg:" ist ein Leerzeichen,
dazwischen scheinbar nichts mehr bis die Zahl beginnt

tomjons · 22. Nov 2021

Klappt noch nicht ganz ...

geimist · 22. Nov 2021

Das ist leider nicht verlässlich.
Mach mal bitte ein Programmlauf mit Loglevel 2 (debug mode). Dann findest du im Log-Ordner eine Textdatei, welche als Suchgrundlage dient. Dort müssen wir mal nachsehen, wie die Zeile genau lautet.

tomjons · 22. Nov 2021

Hab Kundendaten entfernt.

geimist · 22. Nov 2021

Es werden 8 Leerzeichen 'erkannt' (das verwendete Programm PDFtoText versucht so gut wie möglich das Layout wiederzugeben). Außerdem wird statt des Doppelpunktes ein Semikolon erkannt. Auch das müssen wir mit abfangen.

(?<=(^Ihr Beleg[:|;][\s]{8}){1})[0-9]+

Um Interpretationsabweichungen bei der Anzahl der Leerzeichen für die Zukunft abzufangen, müsstest du halt noch zusätzliche Regeln erstellen (also z.B. mit 7 oder 9 Stellen).

edit:
(?<=(^Ihr Beleg[:|;][\s]{1,10}){1})[0-9]+

tomjons · 22. Nov 2021

Ich möchte mich hier sehr bedanken für deine Hilfe. Morgen hab ich wieder Zeit zu Testen. DANKE !!

synfor · 22. Nov 2021

geimist schrieb:
Um Interpretationsabweichungen bei der Anzahl der Leerzeichen für die Zukunft abzufangen, müsstest du halt noch zusätzliche Regeln erstellen (also z.B. mit 7 oder 9 Stellen).

Regex anpassen reicht: {7,9} statt {8}

geimist · 22. Nov 2021

logisch …

Danke

Benares · 22. Nov 2021

Ich kenne mich mit Regex kaum aus.
Aber gibt es da nicht eine bessere Methode um eine beliebige Folge von Whitespaces (also Blanks und Tabs) nach dem : zu eliminieren, ohne sich auf einen bestimmten Bereich festlegen zu müssen?
Darum geht es doch wohl, oder?

red19xx · 22. Nov 2021

@geimist: Grandioses Tool und genau das, was ich schon längere Zeit gesucht habe (jedenfalls, was ich alles darüber gelesen hab)!

Dieser Thread ist ja mittlerweile über 100 Seiten lang gewachsen und deinen Post #1.687 bzgl. BETA unter DSM7 konnte ich bereits finden. Aber gibt es schon eine grobe Schritt-für-Schritt-Anleitung, um synOCR auf DSM7 zum Fliegen zu bekommen? Auf diese Weise bekommt ihr sicher noch mehr Leute "ongeboarded", die dann sicher gern auch Feedback liefern.

Ich konnte jedoch selbst erstmal den Einstieg finden, indem ich wie folgt vorging:

Herunterladen des aktuellen Pakets synOCR_DSM7_BETA_xxxxxxxxxxx.spk unter http://geimist.eu/synOCR/
Im DSM7 > Paket-Zentrum > Manuelle Installation das Paket hochladen und installieren
Öffnen von synOCR
synOCR > Hilfe > Einplanen der Aufgabe über den Aufgabenplaner > umgesetzt wie beschrieben.
Wie unter #1.687 empfohlen, manuell die Aufgabe (also das Skript) über Aufgabenplaner initial ausgeführt
Leider blieben dieser Fehlermeldungen bestehen:
Nachdem ich den Post #1.812 von @shiQzaL las, habe ich das Skript als root selbst per ssh ausgeführt:
Anschließend lies sich synOCR ohne der vorherigen Fehlermeldungen öffnen:

PS: Die Ausführung per SSH war eventuell nicht notwendig. Später konnte ich in den Aufgaben-Logs eine ähnliche Ausgabe sehen:

Nun kann es weitergehen mit der Konfiguration der Applikation.

synfor · 22. Nov 2021

Benares schrieb:
Aber gibt es da nicht eine bessere Methode um eine beliebige Folge von Whitespaces (also Blanks und Tabs) nach dem : zu eliminieren, ohne sich auf einen bestimmten Bereich festlegen zu müssen?

\s+

geimist · 22. Nov 2021

Benares schrieb:
Aber gibt es da nicht eine bessere Methode um eine beliebige Folge von Whitespaces (also Blanks und Tabs) nach dem : zu eliminieren, ohne sich auf einen bestimmten Bereich festlegen zu müssen?

Klar könnte man das für diesen Fall direkt in synOCR entsprechend steuern, aber ich kann ja nicht für jeden use case synOCR anpassen, daher sollte das schon mit RegExen umgesetzt werden (wenn es denn wie gewünscht läuft).
Gerade nach synfors Zaunpfahlwinken sollte die aktuelle Lösung zielführend sein.

Das Problem ist, dass hier ja nicht nur ein Muster gesucht wird, sondern das Muster hinter einem anderen Muster. Und in dem Fall muss wohl eine definierte Zeichenlänge des 'vorderen' Musters vorliegen.

synfor schrieb:
\s+

So hatte ich das zu nächst auch gedacht - bis grep schimpfte …

Fehlermeldung: grep: lookbehind assertion is not fixed length

red19xx schrieb:
… Aber gibt es schon eine grobe Schritt-für-Schritt-Anleitung, um synOCR auf DSM7 zum Fliegen zu bekommen? …

synOCR für DSM7 installieren, in der GUI dein Profil konfigurieren und das in deinem verlinkten Post beschriebene Skript als root aufrufen.
Woran hakt es denn?

tomjons · 23. Nov 2021

geimist schrieb:
Es werden 8 Leerzeichen 'erkannt' (das verwendete Programm PDFtoText versucht so gut wie möglich das Layout wiederzugeben). Außerdem wird statt des Doppelpunktes ein Semikolon erkannt. Auch das müssen wir mit abfangen.

(?<=(^Ihr Beleg[:|;][\s]{8}){1})[0-9]+

Um Interpretationsabweichungen bei der Anzahl der Leerzeichen für die Zukunft abzufangen, müsstest du halt noch zusätzliche Regeln erstellen (also z.B. mit 7 oder 9 Stellen).

edit:
(?<=(^Ihr Beleg[:|;][\s]{1,10}){1})[0-9]+

Guten Morgen,

habe es soeben getestet mit
(?<=(^Ihr Beleg[:|;][\s]{8}){1})[0-9]+ und
(?<=(^Ihr Beleg[:|;][\s]{7,9}){1})[0-9]+

Leider ohne Erfolg. Der Dateiname bleibt Rechnung 2021-556282.pdf ...
Obwohl euer Code im Browsertest je einwandfrei funktioniert.

towbsen · 23. Nov 2021

Hallo zusammen, ich bekomme folgenden Fehler auf einer DS3018xs mit DSM 6.2.4-25556 Update 2

Ich habe über das Paketzentrum lediglich die Installation gestartet und wenn ich das Programm starten möchte, kommt immer dieser Fehler. Woran kann das liegen? Docker läuft. Das Script zum Starten habe ich auch ausgeführt.

Vielen Dank!

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Anhänge

Kaffeautomat