synOCR synOCR - GUI für OCRmyPDF

Struppix · 01. Feb. 2023

Hallo,

hier das Fazit.
Der force Modus bringt bei "leeren" pdf wenig, wie nicht anders zu erwarten. Jedoch im zweiten Durchgang, wenn mal was schief gegangen ist, durchweg eine Verbesserung.

Derzeit erreiche ich eine Quote von etwa 50-60%, was bei dem alten Zeugs recht ordentlich ist. Derzeit bin ich bei 2003 ...

Ich habe die RegEx Regeln etwas modifiziert und weitere spezielle Suchregeln ergänzt, um aus zB. diesem Salat
Suchstring ===> S619233 S70 200 97 05.12.2005 24.11, 2005-04 .12. 2005 25 4
etwas Brauchbares auszulesen. Wie gesagt versteckt sich da die Auszugsnummer. Und Sie wird gefunden.

Gruß
Karsten

HolgerZ · 02. Feb. 2023

Hallo, ich arbeite mich gerade in SynOCR ein, tolles Tool, vielen Dank dafür.

Mit den Yaml Regeln komme ich einigermaßen klar, auch wenn Regex teils wirklich ein Kampf ist.

Jetzt habe ich bei Trennblättern ein Problem und zwar müsste ich verschiedene Trennblätter verwalten, da ich immer wieder Dokumente erhalte, die bereits mit Trennblättern versehen sind und diese natürlich voneinander abweichen.
Gibt es da eine Möglichkeit, besonders cool wäre natürlich eine automatische Erkennung, wenn eine Seite mehrfach im Dokument vorkommt, dann muss es ein Trennblatt sein?

Ich habe schon viel von dem Thread überflogen und mehrfach durchsucht, habe aber hier und auch anderswo nichts gefunden, das mich in die richtige Richtung dirigiert - auch eine selbstgebastelte Lösung wäre denkbar, bin aber neu bei DSM und weiß gar nicht wo ich anfangen soll.

Bin vorhin über einen Beitrag gestolpert, da ging es darum, dass der Profilwechsel erst nach Klick auf den Button stattfindet und nicht beim Wechsel in der Liste. Mit Javascript kann ich ganz gut, das sollte eigentlich leicht machbar sein, falls da oder auch an anderer Stelle Bedarf bestehen sollte.

geimist · 02. Feb. 2023

HolgerZ schrieb:
auch wenn Regex teils wirklich ein Kampf ist

Aber es ist halt auch mächtig. Ich denke, es ist derzeit der beste Kompromiss.

HolgerZ schrieb:
Jetzt habe ich bei Trennblättern ein Problem und zwar müsste ich verschiedene Trennblätter verwalten, da ich immer wieder Dokumente erhalte, die bereits mit Trennblättern versehen sind und diese natürlich voneinander abweichen.
Gibt es da eine Möglichkeit, besonders cool wäre natürlich eine automatische Erkennung, wenn eine Seite mehrfach im Dokument vorkommt, dann muss es ein Trennblatt sein?

Derzeit basiert die Erkennung ja nicht direkt auf dem Trennblatt, sondern lediglich auf einen spezifischen Begriff (an dieser Stelle in Python realisiert). Das Trennseiten-Feature wird auch recht wenig diskutiert.
Aber zu deinem Problem: Kannst du nicht einfach ein Erkennungsmuster aus den 'alten' Trennblättern definieren?
Eine weitere Möglichkeit sehe ich darin, ein separates Profil zu verwenden und die separierten Seiten des einen Profils in den Input-Ordner des anderen Profils auszugeben.

Zu dem letzten Punkt schreibe ich dir eine PN.

Struppix · 02. Feb. 2023

Hallo Stephan,
ich habe gerade auch ein Problem. Bin inzwischen bei den Auszügen der 90er. Sicher werdet Ihr sagen wer braucht die....
Die sind denke ich C5 oder sowas, und werden ein Stück von synOCR gedreht, obwohl sie eigentlich schön gerade sind. Option ist aus. Ist das die Bildverbesserung?

Danke
Karsten

geimist · 02. Feb. 2023

Struppix schrieb:
Option ist aus

Also -r hast du rausgenommen?

Struppix schrieb:
Ist das die Bildverbesserung?

Du kannst ja mal -c oder -d weglassen. Ich kann dir da aber auch nicht genaues sagen. synOCR reicht die Paramter ja nur an OCRmyPDF durch.

Yippie · 02. Feb. 2023

HolgerZ schrieb:
Bin vorhin über einen Beitrag gestolpert, da ging es darum, dass der Profilwechsel erst nach Klick auf den Button stattfindet und nicht beim Wechsel in der Liste. Mit Javascript kann ich ganz gut, das sollte eigentlich leicht machbar sein, falls da oder auch an anderer Stelle Bedarf bestehen sollte.

Das wäre super, habe schon mehrfach das falsche Profil geändert.

Struppix · 02. Feb. 2023

geimist schrieb:
Also -r hast du rausgenommen?

Du kannst ja mal -c oder -d weglassen. Ich kann dir da aber auch nicht genaues sagen. synOCR reicht die Paramter ja nur an OCRmyPDF durch.

Das Problem ist, er zieht sich das falsche Profil. Egal was ich mache Neustart, Löschen, Klonen, Neu da ist was putt.
Werde mir das morgen mal anschauen.

Gruß
Karsten

Struppix · 03. Feb. 2023

@stephan
Egal was ich anstelle, er zieht immer das default Profil. Hast Du eine Idee was zu tun ist?

Danke Karsten

Monacum · 03. Feb. 2023

@ Stephan funktioniert nicht, der Stephan schreibt hier unter dem Benutzernamen @geimist

geimist · 03. Feb. 2023

Struppix schrieb:
@stephan
Egal was ich anstelle, er zieht immer das default Profil. Hast Du eine Idee was zu tun ist?

Danke Karsten

In der Regel passiert das, wenn sich die Inputordner in mehreren Profilen überschneiden. Dann greift als erstes das Default Profil und anschließend ist der Quellordner leer. Also entweder einen Präfix setzen oder differenzierte Inputordner.

Du kannst nicht benötigte Profile auch deaktivieren.

Struppix · 03. Feb. 2023

Hallo Stephan,
vielen Dank. Kann ich bestätigen, das funktioniert.

Gruß
Karsten

c0smo · 04. Feb. 2023

Also irgendwie ist bei mir der Wurm drin. Ich kann in der Konfig keine Dinge mehr abspeichern, ebenso in der Datei mit den Regeln. Verwendet wird der Texteditor von der DS. Wenn ich die Datei aber im Win Explorer ändere, funktioniert das abspeichern. Aber Änderungen in der Konfig werden nicht übernommen.
Es wird auch nicht umbenannt oder gar in ein anderes Verzeichnis verschoben.

Und beim klonen eines Profils kommt die Meldung, dass kein Profilname definiert wurde. Das ist aber quatsch, den trage ich ein.

Code:

Abrechnung_1:
    tagname: Abrechnung
    targetfolder: /001 Verträge/Test/Gehaltsabrechnungen/§yocr4-§mocr/
    condition: all
    subrules:
    - searchstring: Abrechnung
    - searchstring: Test
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false

/Edit
Nach dem ich jetzt das dritte Mal deinstalliert habe, werden die Änderungen wieder übernommen und die Sortierung scheint auch zu funktionieren.

In meinem Dokument sind verschiedene Datumsangaben, die sich von Dokument zu Dokument aber immer wiederholen und nicht beachtet werden sollten bei der Umbennenung. Geht das irgendwie?

Struppix · 04. Feb. 2023

c0smo schrieb:
In meinem Dokument sind verschiedene Datumsangaben, die sich von Dokument zu Dokument aber immer wiederholen und nicht beachtet werden sollten bei der Umbennenung. Geht das irgendwie?

Hatte gestern auch diverse Probleme. Ging nichts wirklich mehr.
Habe nun die Profile als Unterordner ins Input gestellt mit entsprechendem Namen des Profils. Nur das default geht somit direkt auf den Input Ordner. Zuvor hat er sich beim Anlegen, Ändern was auch immer, immer verschluckt. Das läuft stabil.

Zum Umbenennen mittels Datum einfach im OCR Rename-Syntax weglassen, oder verstehe ich das falsch?

Gruß Karsten

c0smo · 04. Feb. 2023

Es ging jetzt doch schneller alles von Hand umzubenennen.

kulli · 06. Feb. 2023

Moin Zusammen,

@geimist erstmal großes Lob tolles Tool

....bin hier mal über dein SynOTR Tool gelandet, welches bei mir jetzt schon seit 2015 seinen Dienst verichtet...

Ich bin hier schon länger Mitleser, hab viel gelernt und mir so nach und nach auch meine YAML Zusammengebaut, bzw. bin da auch immer noch dabei diese immer mal wieder zu erweitern und versuche mich auch immer mal wieder an RegEx

Vor einiger Zeit gab es mal die Diskusion, eine YAML GUI zu bauen und ich meine mich zu erinnern in diesem Zusammenhang schon mal eine Weboberfläche gesehen zu haben, die hier jemand gepostet hat mit der man die YAML File zusammenbauen kann.
Hintergrund der Frage ist, dass meine Frau sich gerne eigene Suchkriteren zusammenbauen möchte, sie aber doch ziemlich weit weg von allerlei Skripting ist, so dass ich mal schauen wollte ob sie damit zurecht käme.

Leider konnte ich die Seite jetzt beim druchflöhen nicht mehr wiederfinden...
Wenn da noch mal jemand den Link hätte wäre ich dankbar.

Danke und Gruß

facetto · 10. Feb. 2023

Hallo zusammen, ich habe in den letzten Tagen versucht, synOCR ans Laufen zu bekommen. Nach der ersten Installation schien soweit alles OK zu sein, es wurden .pdfs im input Ordner verarbeitet und als erfolgreich in der Statistik angezeigt, allerdings kamen die Dateien nie im output-ordner an. Aus dem input-ordner waren sie nach Abschluss ebenfalls verschwunden. logs gibt es in dem entsprechenden Ordner keine. in den Einstellungen von synOCR erscheinen grüne Häkchen hinter der Pfadzuweisung der einzelnen Ordnern. Was mir aufgefallen ist: Sollte nicht ein neuer user namens "synOCR" erstellt werden? den finde ich im DSM nicht.

Habe synOCR dann deinstalliert und den Dockercontainer gelöscht. Nach Neuinstall kommt nun permanent beim manuellen starten des synOCR Suchlaufs die Fehlermeldung ! ! ! Quellverzeichnis oder Berechtigung in der Konfiguration prüfen ! ! !. Die grünen Haken hinter den Pfadangaben sind immer noch da, ich habe das skript bereits einige Male als root laufen lassen. Der user synOCR ist immer noch nicht vorhanden und ich finde das Dockerpaket von ocrmypdf nicht mehr…

Hier mal das Ergebnis des skripts VOR der neuinstallation:
Start: Fri, 10 Feb 2023 09:57:44 GMT
Ende: Fri, 10 Feb 2023 09:57:44 GMT
Aktueller Status: 0 (Normal)
Standardausgabe/Fehler:
synOCR run at DSM7 or above
➜ check docker group and permissions: ok [docker:x:65536:synOCR]
➜ check admin permissions: ok
synOCR wurde gestartet ...
Bitte warten, bis die Dateien fertig abgearbeitet wurden.

Und NACH der neuinstallation:
Start: Fri, 10 Feb 2023 11:04:17 GMT
Ende: Fri, 10 Feb 2023 11:04:17 GMT
Aktueller Status: 0 (Normal)
Standardausgabe/Fehler:
synOCR run at DSM7 or above
➜ check docker group and permissions: ok [docker:x:65536:synOCR]
➜ check admin permissions: ok
synOCR wurde gestartet ...
Bitte warten, bis die Dateien fertig abgearbeitet wurden.
! ! ! Quellverzeichnis oder Berechtigung in der Konfiguration prüfen ! ! !
Programmlauf wird beendet.

Hat jemand eine Idee, woran das liegen könnte?
Vielen Dank schonmal!

VG, facetto

facetto · 10. Feb. 2023

facetto schrieb:
Habe synOCR dann deinstalliert und den Dockercontainer gelöscht. Nach Neuinstall kommt nun permanent beim manuellen starten des synOCR Suchlaufs die Fehlermeldung ! ! ! Quellverzeichnis oder Berechtigung in der Konfiguration prüfen ! ! !. Die grünen Haken hinter den Pfadangaben sind immer noch da, ich habe das skript bereits einige Male als root laufen lassen. Der user synOCR ist immer noch nicht vorhanden und ich finde das Dockerpaket von ocrmypdf nicht mehr…

Ich bin weitergekommen. Der Dockercontainer hat sich mittlerweile wieder installiert (Magie!?) und als ich spaßeshalber mal eine .pdf in den input-Ordner geworfen habe, konnte diese trotz der o.g. Fehlermeldungen bzgl. der Berechtigungen verarbeitet werden

Und ich glaube nun verstanden zu haben, dass gar kein user namens synOCR im DSM angelegt wird sondern dieser nur als Besitzer der verarbeiteten .pdfs eingesetzt wird.

werde jetzt mal weiter rumspielen so dass der bestellte scanner ab kommende Woche loslegen kann

VG, facetto

Monacum · 11. Feb. 2023

Kurzer Hinweis: Der Docker-Container existiert nicht dauerhaft, der wird erstellt, wenn die Verarbeitung beginnt und danach wieder gelöscht. Nur das heruntergeladene Image von jbarlow83/ocrmypdf:latest bleibt dauerhaft bzw. wird dann durch das aktualisierte überschrieben.

facetto · 11. Feb. 2023

Ja, mir gings um das image, welches erst nach einer gewissen zeit wieder runtergeladen wurde. das mit dem erscheinen und verschwinden des eigentlichen containers hatte ich anderswo gelesen.

VG

Gthorsten · 11. Feb. 2023

Ich hab mal eine Frage an alle mit einem brother Dokumenten Scanner.
Ich habe einen adw 2700.
Habt ihr auch das Problem das sich die Uhrzeit nach einiger Zeit immer wieder auf 2018 stellt? Schalte den Scanner bei nicht Verwendung aus.
Wenn ihn dann mach einiger Zeit wieder anmache ist es 2018 und er synchronisiert sich auch nicht direkt mit meinem ntp.

Sorry ich weiß das es nicht hier hin gehört...

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat