synOCR synOCR - GUI für OCRmyPDF

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
883
Punkte für Reaktionen
185
Punkte
63
Hallo,

hier das Fazit.
Der force Modus bringt bei "leeren" pdf wenig, wie nicht anders zu erwarten. Jedoch im zweiten Durchgang, wenn mal was schief gegangen ist, durchweg eine Verbesserung.

Derzeit erreiche ich eine Quote von etwa 50-60%, was bei dem alten Zeugs recht ordentlich ist. Derzeit bin ich bei 2003 ...:censored:
Ich habe die RegEx Regeln etwas modifiziert und weitere spezielle Suchregeln ergänzt, um aus zB. diesem Salat
Suchstring ===> S619233 S70 200 97 05.12.2005 24.11, 2005-04 .12. 2005 25 4
etwas Brauchbares auszulesen. Wie gesagt versteckt sich da die Auszugsnummer. Und Sie wird gefunden.

Gruß
Karsten
 
  • Like
Reaktionen: geimist

HolgerZ

Benutzer
Mitglied seit
28. Sep 2021
Beiträge
6
Punkte für Reaktionen
1
Punkte
9
Hallo, ich arbeite mich gerade in SynOCR ein, tolles Tool, vielen Dank dafür.

Mit den Yaml Regeln komme ich einigermaßen klar, auch wenn Regex teils wirklich ein Kampf ist.

Jetzt habe ich bei Trennblättern ein Problem und zwar müsste ich verschiedene Trennblätter verwalten, da ich immer wieder Dokumente erhalte, die bereits mit Trennblättern versehen sind und diese natürlich voneinander abweichen.
Gibt es da eine Möglichkeit, besonders cool wäre natürlich eine automatische Erkennung, wenn eine Seite mehrfach im Dokument vorkommt, dann muss es ein Trennblatt sein?

Ich habe schon viel von dem Thread überflogen und mehrfach durchsucht, habe aber hier und auch anderswo nichts gefunden, das mich in die richtige Richtung dirigiert - auch eine selbstgebastelte Lösung wäre denkbar, bin aber neu bei DSM und weiß gar nicht wo ich anfangen soll.

Bin vorhin über einen Beitrag gestolpert, da ging es darum, dass der Profilwechsel erst nach Klick auf den Button stattfindet und nicht beim Wechsel in der Liste. Mit Javascript kann ich ganz gut, das sollte eigentlich leicht machbar sein, falls da oder auch an anderer Stelle Bedarf bestehen sollte.
 
  • Like
Reaktionen: Yippie

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
auch wenn Regex teils wirklich ein Kampf ist
Aber es ist halt auch mächtig. Ich denke, es ist derzeit der beste Kompromiss.

Jetzt habe ich bei Trennblättern ein Problem und zwar müsste ich verschiedene Trennblätter verwalten, da ich immer wieder Dokumente erhalte, die bereits mit Trennblättern versehen sind und diese natürlich voneinander abweichen.
Gibt es da eine Möglichkeit, besonders cool wäre natürlich eine automatische Erkennung, wenn eine Seite mehrfach im Dokument vorkommt, dann muss es ein Trennblatt sein?
Derzeit basiert die Erkennung ja nicht direkt auf dem Trennblatt, sondern lediglich auf einen spezifischen Begriff (an dieser Stelle in Python realisiert). Das Trennseiten-Feature wird auch recht wenig diskutiert.
Aber zu deinem Problem: Kannst du nicht einfach ein Erkennungsmuster aus den 'alten' Trennblättern definieren?
Eine weitere Möglichkeit sehe ich darin, ein separates Profil zu verwenden und die separierten Seiten des einen Profils in den Input-Ordner des anderen Profils auszugeben.


Zu dem letzten Punkt schreibe ich dir eine PN.
 
  • Like
Reaktionen: Yippie

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
883
Punkte für Reaktionen
185
Punkte
63
Hallo Stephan,
ich habe gerade auch ein Problem. Bin inzwischen bei den Auszügen der 90er. Sicher werdet Ihr sagen wer braucht die....
Die sind denke ich C5 oder sowas, und werden ein Stück von synOCR gedreht, obwohl sie eigentlich schön gerade sind. Option ist aus. Ist das die Bildverbesserung?

Danke
Karsten
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Bin vorhin über einen Beitrag gestolpert, da ging es darum, dass der Profilwechsel erst nach Klick auf den Button stattfindet und nicht beim Wechsel in der Liste. Mit Javascript kann ich ganz gut, das sollte eigentlich leicht machbar sein, falls da oder auch an anderer Stelle Bedarf bestehen sollte.
Das wäre super, habe schon mehrfach das falsche Profil geändert.
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
883
Punkte für Reaktionen
185
Punkte
63
Also -r hast du rausgenommen?


Du kannst ja mal -c oder -d weglassen. Ich kann dir da aber auch nicht genaues sagen. synOCR reicht die Paramter ja nur an OCRmyPDF durch.
Das Problem ist, er zieht sich das falsche Profil. Egal was ich mache Neustart, Löschen, Klonen, Neu da ist was putt.
Werde mir das morgen mal anschauen.

Gruß
Karsten
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
@ Stephan funktioniert nicht, der Stephan schreibt hier unter dem Benutzernamen @geimist 😉
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
@stephan
Egal was ich anstelle, er zieht immer das default Profil. Hast Du eine Idee was zu tun ist?

Danke Karsten
In der Regel passiert das, wenn sich die Inputordner in mehreren Profilen überschneiden. Dann greift als erstes das Default Profil und anschließend ist der Quellordner leer. Also entweder einen Präfix setzen oder differenzierte Inputordner.

Du kannst nicht benötigte Profile auch deaktivieren.
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
883
Punkte für Reaktionen
185
Punkte
63
Hallo Stephan,
vielen Dank. Kann ich bestätigen, das funktioniert.

Gruß
Karsten
 
Zuletzt bearbeitet von einem Moderator:

c0smo

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
08. Mai 2015
Beiträge
7.496
Punkte für Reaktionen
1.656
Punkte
274
Also irgendwie ist bei mir der Wurm drin. Ich kann in der Konfig keine Dinge mehr abspeichern, ebenso in der Datei mit den Regeln. Verwendet wird der Texteditor von der DS. Wenn ich die Datei aber im Win Explorer ändere, funktioniert das abspeichern. Aber Änderungen in der Konfig werden nicht übernommen.
Es wird auch nicht umbenannt oder gar in ein anderes Verzeichnis verschoben. :(

Und beim klonen eines Profils kommt die Meldung, dass kein Profilname definiert wurde. Das ist aber quatsch, den trage ich ein.

Code:
Abrechnung_1:
    tagname: Abrechnung
    targetfolder: /001 Verträge/Test/Gehaltsabrechnungen/§yocr4-§mocr/
    condition: all
    subrules:
    - searchstring: Abrechnung
    - searchstring: Test
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false


/Edit
Nach dem ich jetzt das dritte Mal deinstalliert habe, werden die Änderungen wieder übernommen und die Sortierung scheint auch zu funktionieren.

In meinem Dokument sind verschiedene Datumsangaben, die sich von Dokument zu Dokument aber immer wiederholen und nicht beachtet werden sollten bei der Umbennenung. Geht das irgendwie?
 
Zuletzt bearbeitet:

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
883
Punkte für Reaktionen
185
Punkte
63
In meinem Dokument sind verschiedene Datumsangaben, die sich von Dokument zu Dokument aber immer wiederholen und nicht beachtet werden sollten bei der Umbennenung. Geht das irgendwie?
Hatte gestern auch diverse Probleme. Ging nichts wirklich mehr.
Habe nun die Profile als Unterordner ins Input gestellt mit entsprechendem Namen des Profils. Nur das default geht somit direkt auf den Input Ordner. Zuvor hat er sich beim Anlegen, Ändern was auch immer, immer verschluckt. Das läuft stabil.

Zum Umbenennen mittels Datum einfach im OCR Rename-Syntax weglassen, oder verstehe ich das falsch?

Gruß Karsten
 

c0smo

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
08. Mai 2015
Beiträge
7.496
Punkte für Reaktionen
1.656
Punkte
274
Es ging jetzt doch schneller alles von Hand umzubenennen. :ROFLMAO:
 

kulli

Benutzer
Mitglied seit
09. Mrz 2011
Beiträge
9
Punkte für Reaktionen
1
Punkte
3
Moin Zusammen,

@geimist erstmal großes Lob tolles Tool(y)....bin hier mal über dein SynOTR Tool gelandet, welches bei mir jetzt schon seit 2015 seinen Dienst verichtet...

Ich bin hier schon länger Mitleser, hab viel gelernt und mir so nach und nach auch meine YAML Zusammengebaut, bzw. bin da auch immer noch dabei diese immer mal wieder zu erweitern und versuche mich auch immer mal wieder an RegEx

Vor einiger Zeit gab es mal die Diskusion, eine YAML GUI zu bauen und ich meine mich zu erinnern in diesem Zusammenhang schon mal eine Weboberfläche gesehen zu haben, die hier jemand gepostet hat mit der man die YAML File zusammenbauen kann.
Hintergrund der Frage ist, dass meine Frau sich gerne eigene Suchkriteren zusammenbauen möchte, sie aber doch ziemlich weit weg von allerlei Skripting ist, so dass ich mal schauen wollte ob sie damit zurecht käme.

Leider konnte ich die Seite jetzt beim druchflöhen nicht mehr wiederfinden...
Wenn da noch mal jemand den Link hätte wäre ich dankbar.

Danke und Gruß
 

facetto

Benutzer
Mitglied seit
17. Aug 2022
Beiträge
33
Punkte für Reaktionen
2
Punkte
8
Hallo zusammen, ich habe in den letzten Tagen versucht, synOCR ans Laufen zu bekommen. Nach der ersten Installation schien soweit alles OK zu sein, es wurden .pdfs im input Ordner verarbeitet und als erfolgreich in der Statistik angezeigt, allerdings kamen die Dateien nie im output-ordner an. Aus dem input-ordner waren sie nach Abschluss ebenfalls verschwunden. logs gibt es in dem entsprechenden Ordner keine. in den Einstellungen von synOCR erscheinen grüne Häkchen hinter der Pfadzuweisung der einzelnen Ordnern. Was mir aufgefallen ist: Sollte nicht ein neuer user namens "synOCR" erstellt werden? den finde ich im DSM nicht.

Habe synOCR dann deinstalliert und den Dockercontainer gelöscht. Nach Neuinstall kommt nun permanent beim manuellen starten des synOCR Suchlaufs die Fehlermeldung ! ! ! Quellverzeichnis oder Berechtigung in der Konfiguration prüfen ! ! !. Die grünen Haken hinter den Pfadangaben sind immer noch da, ich habe das skript bereits einige Male als root laufen lassen. Der user synOCR ist immer noch nicht vorhanden und ich finde das Dockerpaket von ocrmypdf nicht mehr…

Hier mal das Ergebnis des skripts VOR der neuinstallation:
Start: Fri, 10 Feb 2023 09:57:44 GMT
Ende: Fri, 10 Feb 2023 09:57:44 GMT
Aktueller Status: 0 (Normal)
Standardausgabe/Fehler:
synOCR run at DSM7 or above
➜ check docker group and permissions: ok [docker:x:65536:synOCR]
➜ check admin permissions: ok
synOCR wurde gestartet ...
Bitte warten, bis die Dateien fertig abgearbeitet wurden.


Und NACH der neuinstallation:
Start: Fri, 10 Feb 2023 11:04:17 GMT
Ende: Fri, 10 Feb 2023 11:04:17 GMT
Aktueller Status: 0 (Normal)
Standardausgabe/Fehler:
synOCR run at DSM7 or above
➜ check docker group and permissions: ok [docker:x:65536:synOCR]
➜ check admin permissions: ok
synOCR wurde gestartet ...
Bitte warten, bis die Dateien fertig abgearbeitet wurden.
! ! ! Quellverzeichnis oder Berechtigung in der Konfiguration prüfen ! ! !
Programmlauf wird beendet.


Hat jemand eine Idee, woran das liegen könnte?
Vielen Dank schonmal!

VG, facetto
 

facetto

Benutzer
Mitglied seit
17. Aug 2022
Beiträge
33
Punkte für Reaktionen
2
Punkte
8
Habe synOCR dann deinstalliert und den Dockercontainer gelöscht. Nach Neuinstall kommt nun permanent beim manuellen starten des synOCR Suchlaufs die Fehlermeldung ! ! ! Quellverzeichnis oder Berechtigung in der Konfiguration prüfen ! ! !. Die grünen Haken hinter den Pfadangaben sind immer noch da, ich habe das skript bereits einige Male als root laufen lassen. Der user synOCR ist immer noch nicht vorhanden und ich finde das Dockerpaket von ocrmypdf nicht mehr…

Ich bin weitergekommen. Der Dockercontainer hat sich mittlerweile wieder installiert (Magie!?) und als ich spaßeshalber mal eine .pdf in den input-Ordner geworfen habe, konnte diese trotz der o.g. Fehlermeldungen bzgl. der Berechtigungen verarbeitet werden :love:

Und ich glaube nun verstanden zu haben, dass gar kein user namens synOCR im DSM angelegt wird sondern dieser nur als Besitzer der verarbeiteten .pdfs eingesetzt wird.

werde jetzt mal weiter rumspielen so dass der bestellte scanner ab kommende Woche loslegen kann 👌

VG, facetto
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
Kurzer Hinweis: Der Docker-Container existiert nicht dauerhaft, der wird erstellt, wenn die Verarbeitung beginnt und danach wieder gelöscht. Nur das heruntergeladene Image von jbarlow83/ocrmypdf:latest bleibt dauerhaft bzw. wird dann durch das aktualisierte überschrieben.
 
  • Like
Reaktionen: geimist

facetto

Benutzer
Mitglied seit
17. Aug 2022
Beiträge
33
Punkte für Reaktionen
2
Punkte
8
Ja, mir gings um das image, welches erst nach einer gewissen zeit wieder runtergeladen wurde. das mit dem erscheinen und verschwinden des eigentlichen containers hatte ich anderswo gelesen.

VG
 
Zuletzt bearbeitet von einem Moderator:

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Ich hab mal eine Frage an alle mit einem brother Dokumenten Scanner.
Ich habe einen adw 2700.
Habt ihr auch das Problem das sich die Uhrzeit nach einiger Zeit immer wieder auf 2018 stellt? Schalte den Scanner bei nicht Verwendung aus.
Wenn ihn dann mach einiger Zeit wieder anmache ist es 2018 und er synchronisiert sich auch nicht direkt mit meinem ntp.

Sorry ich weiß das es nicht hier hin gehört...
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat