synOCR synOCR - GUI für OCRmyPDF

geimist · 31. Aug. 2023

Hallo Peter,

sorry, hab den Fehler gefunden und wird gefixt.
Python3 wird nur unter DSM6 zusätzlich benötigt (weil da nicht nativ installiert) und auf aarch64 unbedingt Python3.9

geimist · 31. Aug. 2023

@peterhoffmann
Kannst du bitte mal probieren?

peterhoffmann · 31. Aug. 2023

@geimist
Aus Zeitmangel nur ein kurzer Test... Datum wurde erkannt.

Danke!

geimist · 31. Aug. 2023

Hier wieder ein kleines Bugfix-Release: 1.4.4
Ihr findet es wie gewohnt auf meinem Server (für DSM6 & DSM7): https://geimist.eu/synOCR/

DOWNLOAD:

➜ SPK DSM6

➜ SPK DSM7

1.4.4 [2023-08-31]
BUGFIXE:

[SHELL] Suchbereich für das Datum in der Vergangenheit wurde nicht korrekt berechnet @peterhoffmann #3.860
[SHELL] wenn ein (verschlüsselter) Zielordner noch nicht gemountet wurde, wird der Programmlauf nun ab DSM7 abgebrochen. @Ghost108 #3.858

polo130312 · 01. Sep. 2023

@geimist

Danke für Deine tolle Arbeit. Ich habe aktuell ein Problem, da Du gestern ein neues Release online gestellt hast...
Habe aktuell meine Pakete auf der DS zwischen den Volumes verschoben (Festplattenwechsel) und musste anschließend unter anderem SynOCR reparieren, bzw. neu installieren. HyperBackup habe ich vorher gemacht und die Einstellungen auch bereits in der Vergangenheit erfolgreich damit wieder importiert. Nun war bis dato jedoch SynOCR in der 1.4.3 installiert und mein Backup von gestern stammt von dieser Version. Zur Reparatur von SynOCR steht ja nun aber nur noch 1.4.4 zum Download und das mag scheinbar die wiederhergestellten Einstellungen meines HyperBackups der 1.4.3 nicht...
Nach Zurückspielen lässt sich auf der Programmoberfläche nichts mehr bedienen, bzw. zeigt keine Reaktion. Direkt nach Installation ohne Rückspielen des Backups funktioniert in der 1.4.4 alles...
Kannst Du ggf. noch das Paket in der 1.4.3 als Download bereitstellen?

UPDATE:
...OK manchmal muss man nur intensiver googeln...habe die 1.4.3 bei GitHub gefunden. Habe die letzten Releases immer direkt auf Deiner Homepage herunter geladen...
Rücksichern des Backups hat nun gefunzt und SynOCR läuft wieder. Jetzt steht dem Update auf 1.4.4 nichts mehr im Wege...

peterhoffmann · 03. Sep. 2023

@geimist
Ich habe ein Problem mit den PDFs vom Handy (Android, App SwiftScan).

Alle Scans werden in den Ordner Errorfiles verschoben.

Der Kern der Fehlermeldung sieht so aus:

Code:

CURRENT FILE:   ➜ 20230903 112147 Scan.pdf
                  temp. target file: /tmp/tmp.ashNjHvTYr/step1_tmp_1693732926/20230903 112147 Scan.pdf

  -----------------------------------------------------------------------------------
  | processing PDF @ OCRmyPDF:                                                      |
  -----------------------------------------------------------------------------------

                ➜ OCRmyPDF-LOG:
                  reading file from standard input
                  
                      1 Error: /rangecheck in readorigxref
                  Operand stack:
                     0   0   8
                  Execution stack:
                     %interp_exit   .runexec2   --nostringval--   runpdf   --nostringval--   2   %stopped_push   --nostringval--   runpdf   runpdf   false   1   %stopped_push   1990   1   3   %oparray_pop   1989   1   3   %oparray_pop   1977   1   3   %oparray_pop   1978   1   3   %oparray_pop   runpdf   runpdf   runpdf   runpdf   runpdf   runpdf   runpdf   runpdf   %loop_continue   runpdf   runpdf
                  Dictionary stack:
                     --dict:770/1123(ro)(G)--   --dict:1/20(G)--   --dict:80/200(L)--   --dict:80/200(L)--   --dict:134/256(ro)(G)--   --dict:324/325(ro)(G)--   --dict:26/32(L)--
                  Current allocation mode is local
                  Last OS error: No such file or directory
                  GPL Ghostscript 9.55.0: Unrecoverable error, exit code 1
                  
                  
                  SubprocessOutputError: Ghostscript rasterizing failed
                ← OCRmyPDF-LOG-END

                  ┖➜ failed! (target file is empty or not available)
                                  ERROR-Directory [/volume1/eingang/scanner/ERRORFILES] will be created!

Über deine Uploadfunktion habe ich das Log und eine Testdatei hochgeladen.

Kannst du damit was anfangen?

geimist · 03. Sep. 2023

Hier handelt es sich wieder einmal um ein Problem mit OCRmyPDF. Ich habe erschiedene Parameter versucht, konnte es aber mit der aktuellen Version auch nicht verarbeiten.
Was bei mir aber funktioniert hat, ist die Version jbarlow83/ocrmypdf:v12.7.2. Die finde ich sehr rubust, wenn man das so beobachtet.

Du könntest aber gerne mit deiner Problemdatei ein Issue bei OCRmyPDF eröffnen, damit dem nachgegangen werden kann.

Code:

➜ OCRmyPDF-LOG:
  reading file from standard input
 
      1 Error: /rangecheck in readorigxref
  Operand stack:
     0   0   8
  Execution stack:
     %interp_exit   .runexec2   --nostringval--   runpdf   --nostringval--   2   %stopped_push   --nostringval--   runpdf   runpdf   false   1   %stopped_push   1990   1   3   %oparray_pop   1989   1   3   %oparray_pop   1977   1   3   %oparray_pop   1978   1   3   %oparray_pop   runpdf   runpdf   runpdf   runpdf   runpdf   runpdf   runpdf   runpdf   %loop_continue   runpdf   runpdf
  Dictionary stack:
     --dict:770/1123(ro)(G)--   --dict:1/20(G)--   --dict:80/200(L)--   --dict:80/200(L)--   --dict:134/256(ro)(G)--   --dict:324/325(ro)(G)--   --dict:26/32(L)--
  Current allocation mode is local
  Last OS error: No such file or directory
  GPL Ghostscript 9.55.0: Unrecoverable error, exit code 1
 
 
  SubprocessOutputError: Ghostscript rasterizing failed
← OCRmyPDF-LOG-END

peterhoffmann · 03. Sep. 2023

geimist schrieb:
funktioniert hat, ist die Version jbarlow83/ocrmypdf:v12.7.2.

Danke für das schnelle Feedback.
Auf die Idee mit der Version hätte ich auch selbst kommen müssen.

Auf jeden Fall kann ich bestätigen, dass das funktioniert.

@haenschen · 06. Sep. 2023

Hallo zusammen,
mich würde mal imnteressieren, ob man in synOCR einstellen kann, dass leere Seiten automatisch entfernt werden?
Leider soll das mein Scanner können, tut es aber nicht.
Mit Scan Anwendungen (z.B. NAPS32) werden leerse Seiten zwar zuverlässig entfernt, jedoch ist mir die Nutzung einer Scan Anwednung doch netwas zu umständlich.

Zusätzlich würde mich intersssieren, ob man bei der Verwendung von synOCR bereits vom Scanner PDF/A Datein erzeugen lassen soll oder nur "normale" PFDs.
Vielen Dank für die Hilfe.

Viele Grüße, Hans

Yippie · 06. Sep. 2023

Das wurde hier schon mehrfach diskutiert, aber meines Wissens ergebnisoffen, da noch zuviele Fragen offen.

geimist · 06. Sep. 2023

Leerseitenerkennung steht auf der ToDo Liste
OCRMYPDF gibt standardmäßig PDF/A Dokumente aus

@haenschen · 07. Sep. 2023

Danke für die schnelle Info.
Dann werde ich mal abwarten, bis die Leerseitenerkennung - trotz aller Widrigkeiten - umgesetzt ist.
Grüße, Hans

bertoal · 17. Sep. 2023

Hallo @geimist ,
hier werden wirklich Wünsche war. Habe lange geschwankt, zwischen paperless ngx und synOCR und die Installation von synOCR vor mir hergeschoben (da script etc --> bin eigentlich sturer Windows-Anwender und kein "Scripter").
Paperless schien mir durch die youtube-Tutorials greifbarer, aber auch bedeutend umfangreicher (und "endgültiger") (bzw. overengineered, so dass ich es bei meiner Regierung nicht umsetzen/durchsetzen könnte).
Mit synOCR kann ich nun Stück für Stück die wichtigen Ordner konvertieren (wahrscheinlich gibt es sogar eine Automatik, die ich noch finden muss/werde - gib mir ein paar Stunden

- sind ja 'nur' 194 Seiten im Forum), alles bleibt augenscheinlich beim Alten und ich muss mich nicht mit einer neuen Web-Oberfläche (wie bei Paperless-ngx) auseinandersetzen.

Vielen Dank für die Funktion

bertoal

geimist · 17. Sep. 2023

Freut mich, wenn es dir gefällt. Das ist auch Sinn und Zweck, dass sich synOCR direkt in den Workflow einbindet. Guck mal ins Wiki. Gerade in Verbindung mit einer YAML-Datei kannst du dich da ziemlich austoben. Unser lieber @Struppix hat da schon viel dokumentiert und auch einen Editor für die YAML-Datei auf Excel-Basis erstellt. Es gibt auch DIESEN Thread dazu. Und Videos von ihm.

stainless89 · 18. Sep. 2023

Hallo an Alle,
ich bin auch neu dabei alles bei uns papierlos zu organisieren.

Ich nutze SynOCR in der V 1.4.4 und habe das Problem, dass eingescannte Mehrseitendokumente nach dem OCR Scan auf maximal 2 Seiten heruntergekürzt werden.
Sprich: Ich lege 2 Blätter in den Scanner ein und scanne diese Doppelseitig. Im Scan-Input Ordner landet ein 4 Seiten pdf, nach dem OCR Scan habe ich dann im OCR Output-Ordner nur noch ein 2 Seiten Dokument. Im Backup Ordner ist dann immernoch das 4 Seiten Dok.

Als Dockerimage nutze ich die "jbarlow83/ocrmypdf:latest", als ocr optionen habe ich das hier drin "-srd -l deu". Ich habe leider in der Hilfe nichts wirklich dazu finden können. Vielleicht könnt ihr mir hier ja helfen. Vielen Dank schonmal.

Grüße stainless

geimist · 18. Sep. 2023

An der Trennseitenfunktion kann es nicht liegen?
Dann schicke mir doch bitte mal ein Log. Gerne auch ein Beispieldokument.

Hier der Link zum Hochladen.

stainless89 · 18. Sep. 2023

geimist schrieb:
An der Trennseitenfunktion kann es nicht liegen?
Dann schicke mir doch bitte mal ein Log. Gerne auch ein Beispieldokument.

Hier der Link zum Hochladen.

Danke für die schnelle Antwort. Ich habe dir mal die Log Datei, das gesamte Dokument aus dem Scan Ordner und das OCRte Dokument zukommen lassen.

Monacum · 18. Sep. 2023

geimist schrieb:
Trennseitenfunktion

Stephan, ich nutze für Paperless-ngx die Patch-T-Trennblätter – bekomme ich das irgendwie hin, die auch unter synOCR zu verwenden? Einfach PATCHT eintragen klappt jedenfalls nicht.

geimist · 18. Sep. 2023

stainless89 schrieb:
Danke für die schnelle Antwort. Ich habe dir mal die Log Datei, das gesamte Dokument aus dem Scan Ordner und das OCRte Dokument zukommen lassen.

Bitte mal diese Version installieren, einmal die Originaldatei verarbeiten lassen und anschließend mir das Log wieder hochladen. Diese Datei enthält lediglich ein spezifisches Logging, weil ich dein Problem überhaupt noch nicht nachvollziehen kann.

Download

geimist · 18. Sep. 2023

Monacum schrieb:
Stephan, ich nutze für Paperless-ngx die Patch-T-Trennblätter – bekomme ich das irgendwie hin, die auch unter synOCR zu verwenden? Einfach PATCHT eintragen klappt jedenfalls nicht.

SynOCR verwendet eine eigene Logik. Als Trenner dient letztendlich ein selbstdefinierter Begriff. Diesen kann man auf einem eigenen Blatt ausdrucken. Wenn es auf deinem Trennblatt einen eindeutigen Begriff gibt, so kannst du auch diesen im Profil definieren und dein Trennblatt in synOCR verwenden.

Es gibt aber auch die Möglichkeit, einen Begriff im Dokument zu verwenden. Im Profil kann man einstellen, ob ein Trennblatt die 1. Seite eines Dokuments oder die letzte Seite eines Dokuments sein soll, oder ob man das Trennblatt im Zieldokument verwerfen möchte (Standard).

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

DOWNLOAD:​

➜ SPK DSM6​

➜ SPK DSM7​

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat

DOWNLOAD:

➜ SPK DSM6

➜ SPK DSM7