synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Hallo Peter,

  1. sorry, hab den Fehler gefunden und wird gefixt.
  2. Python3 wird nur unter DSM6 zusätzlich benötigt (weil da nicht nativ installiert) und auf aarch64 unbedingt Python3.9
 
  • Like
Reaktionen: peterhoffmann

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
@geimist
Aus Zeitmangel nur ein kurzer Test... Datum wurde erkannt. :)
Danke!
 
  • Like
Reaktionen: geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Hier wieder ein kleines Bugfix-Release: 1.4.4
Ihr findet es wie gewohnt auf meinem Server (für DSM6 & DSM7): https://geimist.eu/synOCR/

DOWNLOAD:

➜ SPK DSM6

➜ SPK DSM7




1.4.4 [2023-08-31]
BUGFIXE:

  • [SHELL] Suchbereich für das Datum in der Vergangenheit wurde nicht korrekt berechnet @peterhoffmann #3.860
  • [SHELL] wenn ein (verschlüsselter) Zielordner noch nicht gemountet wurde, wird der Programmlauf nun ab DSM7 abgebrochen. @Ghost108 #3.858
 
  • Like
Reaktionen: reiki

polo130312

Benutzer
Mitglied seit
26. Feb 2020
Beiträge
5
Punkte für Reaktionen
1
Punkte
3
@geimist

Danke für Deine tolle Arbeit. Ich habe aktuell ein Problem, da Du gestern ein neues Release online gestellt hast...
Habe aktuell meine Pakete auf der DS zwischen den Volumes verschoben (Festplattenwechsel) und musste anschließend unter anderem SynOCR reparieren, bzw. neu installieren. HyperBackup habe ich vorher gemacht und die Einstellungen auch bereits in der Vergangenheit erfolgreich damit wieder importiert. Nun war bis dato jedoch SynOCR in der 1.4.3 installiert und mein Backup von gestern stammt von dieser Version. Zur Reparatur von SynOCR steht ja nun aber nur noch 1.4.4 zum Download und das mag scheinbar die wiederhergestellten Einstellungen meines HyperBackups der 1.4.3 nicht...
Nach Zurückspielen lässt sich auf der Programmoberfläche nichts mehr bedienen, bzw. zeigt keine Reaktion. Direkt nach Installation ohne Rückspielen des Backups funktioniert in der 1.4.4 alles...
Kannst Du ggf. noch das Paket in der 1.4.3 als Download bereitstellen?

UPDATE:
...OK manchmal muss man nur intensiver googeln...habe die 1.4.3 bei GitHub gefunden. Habe die letzten Releases immer direkt auf Deiner Homepage herunter geladen...
Rücksichern des Backups hat nun gefunzt und SynOCR läuft wieder. Jetzt steht dem Update auf 1.4.4 nichts mehr im Wege...
 
Zuletzt bearbeitet:
  • Like
Reaktionen: geimist

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
@geimist
Ich habe ein Problem mit den PDFs vom Handy (Android, App SwiftScan).

Alle Scans werden in den Ordner Errorfiles verschoben.

Der Kern der Fehlermeldung sieht so aus:
Code:
CURRENT FILE:   ➜ 20230903 112147 Scan.pdf
                  temp. target file: /tmp/tmp.ashNjHvTYr/step1_tmp_1693732926/20230903 112147 Scan.pdf

  -----------------------------------------------------------------------------------
  | processing PDF @ OCRmyPDF:                                                      |
  -----------------------------------------------------------------------------------

                ➜ OCRmyPDF-LOG:
                  reading file from standard input
                  
                      1 Error: /rangecheck in readorigxref
                  Operand stack:
                     0   0   8
                  Execution stack:
                     %interp_exit   .runexec2   --nostringval--   runpdf   --nostringval--   2   %stopped_push   --nostringval--   runpdf   runpdf   false   1   %stopped_push   1990   1   3   %oparray_pop   1989   1   3   %oparray_pop   1977   1   3   %oparray_pop   1978   1   3   %oparray_pop   runpdf   runpdf   runpdf   runpdf   runpdf   runpdf   runpdf   runpdf   %loop_continue   runpdf   runpdf
                  Dictionary stack:
                     --dict:770/1123(ro)(G)--   --dict:1/20(G)--   --dict:80/200(L)--   --dict:80/200(L)--   --dict:134/256(ro)(G)--   --dict:324/325(ro)(G)--   --dict:26/32(L)--
                  Current allocation mode is local
                  Last OS error: No such file or directory
                  GPL Ghostscript 9.55.0: Unrecoverable error, exit code 1
                  
                  
                  SubprocessOutputError: Ghostscript rasterizing failed
                ← OCRmyPDF-LOG-END

                  ┖➜ failed! (target file is empty or not available)
                                  ERROR-Directory [/volume1/eingang/scanner/ERRORFILES] will be created!
Über deine Uploadfunktion habe ich das Log und eine Testdatei hochgeladen.

Kannst du damit was anfangen?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Hier handelt es sich wieder einmal um ein Problem mit OCRmyPDF. Ich habe erschiedene Parameter versucht, konnte es aber mit der aktuellen Version auch nicht verarbeiten.
Was bei mir aber funktioniert hat, ist die Version jbarlow83/ocrmypdf:v12.7.2. Die finde ich sehr rubust, wenn man das so beobachtet.

Du könntest aber gerne mit deiner Problemdatei ein Issue bei OCRmyPDF eröffnen, damit dem nachgegangen werden kann.

Code:
➜ OCRmyPDF-LOG:
  reading file from standard input
 
      1 Error: /rangecheck in readorigxref
  Operand stack:
     0   0   8
  Execution stack:
     %interp_exit   .runexec2   --nostringval--   runpdf   --nostringval--   2   %stopped_push   --nostringval--   runpdf   runpdf   false   1   %stopped_push   1990   1   3   %oparray_pop   1989   1   3   %oparray_pop   1977   1   3   %oparray_pop   1978   1   3   %oparray_pop   runpdf   runpdf   runpdf   runpdf   runpdf   runpdf   runpdf   runpdf   %loop_continue   runpdf   runpdf
  Dictionary stack:
     --dict:770/1123(ro)(G)--   --dict:1/20(G)--   --dict:80/200(L)--   --dict:80/200(L)--   --dict:134/256(ro)(G)--   --dict:324/325(ro)(G)--   --dict:26/32(L)--
  Current allocation mode is local
  Last OS error: No such file or directory
  GPL Ghostscript 9.55.0: Unrecoverable error, exit code 1
 
 
  SubprocessOutputError: Ghostscript rasterizing failed
← OCRmyPDF-LOG-END
 
  • Like
Reaktionen: peterhoffmann

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
funktioniert hat, ist die Version jbarlow83/ocrmypdf:v12.7.2.
Danke für das schnelle Feedback.
Auf die Idee mit der Version hätte ich auch selbst kommen müssen. :unsure:
Auf jeden Fall kann ich bestätigen, dass das funktioniert. :)
 
  • Like
Reaktionen: geimist

@haenschen

Benutzer
Mitglied seit
21. Aug 2023
Beiträge
6
Punkte für Reaktionen
0
Punkte
1
Hallo zusammen,
mich würde mal imnteressieren, ob man in synOCR einstellen kann, dass leere Seiten automatisch entfernt werden?
Leider soll das mein Scanner können, tut es aber nicht.
Mit Scan Anwendungen (z.B. NAPS32) werden leerse Seiten zwar zuverlässig entfernt, jedoch ist mir die Nutzung einer Scan Anwednung doch netwas zu umständlich.

Zusätzlich würde mich intersssieren, ob man bei der Verwendung von synOCR bereits vom Scanner PDF/A Datein erzeugen lassen soll oder nur "normale" PFDs.
Vielen Dank für die Hilfe.

Viele Grüße, Hans
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Das wurde hier schon mehrfach diskutiert, aber meines Wissens ergebnisoffen, da noch zuviele Fragen offen.
 
  • Like
Reaktionen: Gthorsten

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
  • Leerseitenerkennung steht auf der ToDo Liste
  • OCRMYPDF gibt standardmäßig PDF/A Dokumente aus
 
  • Like
Reaktionen: reiki

@haenschen

Benutzer
Mitglied seit
21. Aug 2023
Beiträge
6
Punkte für Reaktionen
0
Punkte
1
Danke für die schnelle Info.
Dann werde ich mal abwarten, bis die Leerseitenerkennung - trotz aller Widrigkeiten - umgesetzt ist.
Grüße, Hans
 

bertoal

Benutzer
Mitglied seit
20. Feb 2021
Beiträge
159
Punkte für Reaktionen
87
Punkte
78
Hallo @geimist ,
hier werden wirklich Wünsche war. Habe lange geschwankt, zwischen paperless ngx und synOCR und die Installation von synOCR vor mir hergeschoben (da script etc --> bin eigentlich sturer Windows-Anwender und kein "Scripter").
Paperless schien mir durch die youtube-Tutorials greifbarer, aber auch bedeutend umfangreicher (und "endgültiger") (bzw. overengineered, so dass ich es bei meiner Regierung nicht umsetzen/durchsetzen könnte).
Mit synOCR kann ich nun Stück für Stück die wichtigen Ordner konvertieren (wahrscheinlich gibt es sogar eine Automatik, die ich noch finden muss/werde - gib mir ein paar Stunden:p - sind ja 'nur' 194 Seiten im Forum), alles bleibt augenscheinlich beim Alten und ich muss mich nicht mit einer neuen Web-Oberfläche (wie bei Paperless-ngx) auseinandersetzen.

Vielen Dank für die Funktion(y)
bertoal
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Freut mich, wenn es dir gefällt. Das ist auch Sinn und Zweck, dass sich synOCR direkt in den Workflow einbindet. Guck mal ins Wiki. Gerade in Verbindung mit einer YAML-Datei kannst du dich da ziemlich austoben. Unser lieber @Struppix hat da schon viel dokumentiert und auch einen Editor für die YAML-Datei auf Excel-Basis erstellt. Es gibt auch DIESEN Thread dazu. Und Videos von ihm.
 

stainless89

Benutzer
Mitglied seit
11. Nov 2019
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Hallo an Alle,
ich bin auch neu dabei alles bei uns papierlos zu organisieren.

Ich nutze SynOCR in der V 1.4.4 und habe das Problem, dass eingescannte Mehrseitendokumente nach dem OCR Scan auf maximal 2 Seiten heruntergekürzt werden.
Sprich: Ich lege 2 Blätter in den Scanner ein und scanne diese Doppelseitig. Im Scan-Input Ordner landet ein 4 Seiten pdf, nach dem OCR Scan habe ich dann im OCR Output-Ordner nur noch ein 2 Seiten Dokument. Im Backup Ordner ist dann immernoch das 4 Seiten Dok.

Als Dockerimage nutze ich die "jbarlow83/ocrmypdf:latest", als ocr optionen habe ich das hier drin "-srd -l deu". Ich habe leider in der Hilfe nichts wirklich dazu finden können. Vielleicht könnt ihr mir hier ja helfen. Vielen Dank schonmal.

Grüße stainless
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
:oops: An der Trennseitenfunktion kann es nicht liegen?
Dann schicke mir doch bitte mal ein Log. Gerne auch ein Beispieldokument.

Hier der Link zum Hochladen.
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
Trennseitenfunktion
Stephan, ich nutze für Paperless-ngx die Patch-T-Trennblätter – bekomme ich das irgendwie hin, die auch unter synOCR zu verwenden? Einfach PATCHT eintragen klappt jedenfalls nicht. 😃
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Danke für die schnelle Antwort. Ich habe dir mal die Log Datei, das gesamte Dokument aus dem Scan Ordner und das OCRte Dokument zukommen lassen.

Bitte mal diese Version installieren, einmal die Originaldatei verarbeiten lassen und anschließend mir das Log wieder hochladen. Diese Datei enthält lediglich ein spezifisches Logging, weil ich dein Problem überhaupt noch nicht nachvollziehen kann.

Download
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Stephan, ich nutze für Paperless-ngx die Patch-T-Trennblätter – bekomme ich das irgendwie hin, die auch unter synOCR zu verwenden? Einfach PATCHT eintragen klappt jedenfalls nicht. 😃
SynOCR verwendet eine eigene Logik. Als Trenner dient letztendlich ein selbstdefinierter Begriff. Diesen kann man auf einem eigenen Blatt ausdrucken. Wenn es auf deinem Trennblatt einen eindeutigen Begriff gibt, so kannst du auch diesen im Profil definieren und dein Trennblatt in synOCR verwenden.

Es gibt aber auch die Möglichkeit, einen Begriff im Dokument zu verwenden. Im Profil kann man einstellen, ob ein Trennblatt die 1. Seite eines Dokuments oder die letzte Seite eines Dokuments sein soll, oder ob man das Trennblatt im Zieldokument verwerfen möchte (Standard).
 
  • Like
Reaktionen: Monacum


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat