synOCR synOCR - GUI für OCRmyPDF

Gthorsten · 20. Aug. 2022

Nein das reicht erstmal. Melde mich Sonntag abend wenn ich mehr weiß

usefulvid · 20. Aug. 2022

Ich nutze ocrmy pdf schon auf meinem Windows PC.
Ich möchte in meinem Scan Ordner direkt die PDFs überschreiben und mit OCR versehen.
Bisher war das mein Befehl:

Code:

ocrmypdf --output-type pdf -l deu+eng --rotate-pages --rotate-pages-threshold 2.0

Ich bekomme zwei dinge nun nicht hin:
Zum einen werden mit SynoOCR die Dateien nicht inplace überschrieben, auch wenn ich das Umbennenungsmuster entferne, zum anderen wird OCR ausgeführt bei Dateien die schon von ocrmypdf behandelt wurden.
Wie kann ich as mit SynOCR realisieren?
Im Changelog ist schon die Version 1.3 zu finden mit inotify support. Gibt es schon eine Beta oder ähnliches?

geimist · 20. Aug. 2022

usefulvid schrieb:
Zum einen werden mit SynoOCR die Dateien nicht inplace überschrieben, auch wenn ich das Umbennenungsmuster entferne, zum anderen wird OCR ausgeführt bei Dateien die schon von ocrmypdf behandelt wurden.

Mit einem Präfix oder Suffix, den du entfernen lässt (Schalter in der GUI) kannst du auch den Inputordner als Outputordner verwenden. Wenn die Dateien erneut abgearbeitet werden, hast du möglicherweise noch ein weiteres Profil aktiv.

usefulvid schrieb:
Im Changelog ist schon die Version 1.3 zu finden mit inotify support. Gibt es schon eine Beta oder ähnliches?

Hier den Snapshotbuild laden.
Die Intotify-Tools musst du separat installieren.
Im Aufgabenplaner musst du synOCR mit dem Parameter start ausführen:
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh start

usefulvid · 20. Aug. 2022

geimist schrieb:
Mit einem Präfix oder Suffix, den du entfernen lässt (Schalter in der GUI)

Passen die Einstellungen so? Das scheint jetzt auch zu klappen mit dem Überschreiben.

Ein weiteres Profil ist nicht aktiv.
Wenn jetzt inotify eine neue Datei findet (oder ich das skript neu ausführe) werden auch die alten Dateien nochmal abgearbeitet die noch im Ordner liegen. Das war vorher bei meiner Ausführung in Windows nicht so.

Code:

Y:\Scans>ocrmypdf --output-type pdf -l deu+eng --rotate-pages --rotate-pages-threshold 2.0 SCN_0001.pdf SCN_0001.pdf
Scanning contents: 100%|███████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 62.44page/s]
OCR:   0%|                                                                                             | 0.0/1.0 [00:00<?, ?page/s]
PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR;  see also help for the arguments --skip-text and --redo-ocr

hm ok laut Log macht der das auch:

Code:

 ➜ OCRmyPDF-LOG:
                  WARNING: Error loading config file: .dockercfg: $HOME is not defined
                  reading file from standard input
                  PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR;  see also help for the arguments --skip-text and --redo-ocr
                ← OCRmyPDF-LOG-END

Komisch finde ich auch das hier:

Code:

file count total:     ➜ 53 PDF's / 223 Pages processed up to now

Macht der das rekursiv? Ich dachte gelesen zu haben der nimmt nur die oberste Ordner ebene? Da liegen nur eine Handvoll PDFs, keinesfalls 53.

Code:

URRENT FILE:   ➜ SCN_0004.pdf
                  temp. target file: /tmp/tmp.v2ke1K0HUV/SCN_0004.pdf

  -----------------------------------------------------------------------------------
  | processing PDF @ OCRmyPDF:                                                      |
  -----------------------------------------------------------------------------------

                ➜ OCRmyPDF-LOG:
                  WARNING: Error loading config file: .dockercfg: $HOME is not defined
                  reading file from standard input
                  Start processing 4 pages concurrently
                      4 [tesseract] Too few characters. Skipping this page
                      4 [tesseract] Error during processing.
                      4 page is facing ⇧, confidence 0.00 - no change
                      6 [tesseract] Too few characters. Skipping this page
                      6 [tesseract] Error during processing.
                      6 page is facing ⇧, confidence 0.00 - no change
                  PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR;  see also help for the arguments --skip-text and --redo-ocr
                ← OCRmyPDF-LOG-END

                  ┖➜ failed! (target file is empty or not available)

Am Ende sagt er zwar "has text" aber der geht alle files durch so wie das aussieht? Das erklärt auch warum die CPU so unter Last ist.

Ich will eigentlich nur folgendes:
Neue file -> mache ocr und ersetze die original mit der ocr_pdf

edit:
An den Logfiles kann ich sehen, dass sich ocrmypdf die ganze zeit wiederholt. Kann es sein, dass der ein Problem damit hat wenn Quelle und Ziel identisch sind? Das heißt ja er schreibt seine ocr file in das Verzeichnis und inotify merkt sofort wieder, dass da eine neue Datei liegt und das ganze geht von vorne los?

geimist · 20. Aug. 2022

usefulvid schrieb:
Passen die Einstellungen so? Das scheint jetzt auch zu klappen mit dem Überschreiben.

Nein. Die Originaldateien brauchen z.B. einen Präfix, d.h. nur die Dateien mit diesem Muster werden verarbeitet. Dadurch, dass du dieses Muster entfernst, werden sie nicht erneut verarbeitet. Ein Beispiel: Dein Scanner beginnt jeden Datei mit dem Begriff SCAN_ und dann eine laufende Nummer, z.B. SCAN_01234.pdf. Nach dem Verarbeiten heißst sie dann nur noch 012345.pdf

usefulvid schrieb:
Das war vorher bei meiner Ausführung in Windows nicht so.

synOCR übernimmt das komplette Dateihandling. Das läuft ein wenig anders, also nativ mit OCRmyPDF.

usefulvid · 21. Aug. 2022

geimist schrieb:
kannst du auch den Inputordner als Outputordner verwenden

Kann ich auch die original Datei löschen lassen? Und wenn ja wie?
Ich hab jetzt doch einen anderen Output Ordner genommen, trotzdem würde ich nach der Konvertierung die Originaldateien Löschen.

geimist · 21. Aug. 2022

usefulvid schrieb:
Kann ich auch die original Datei löschen lassen? Und wenn ja wie?

Alle Originaldateien werden in das Backupverzeichnis verschoben. Lass einfach das Backupverzeichnis leer oder verwende als Ziel den Papierkorb.

sub2010 · 23. Aug. 2022

Hallo @geimist,

vielen Dank für dieses tolle Tool. Ich bin erst vor kurzem drauf gestoßen und es zeichnet sich durch die super Integration in der Drive aus.

Ich weiß nicht ob diese Ideen schon mal aufkamen, ich konnte Sie hier nicht finden.
Ich möchte dennoch Nachfragen ob es einen Plan dazu gibt.
- Umwandlung von Bildern in PDF Dokumente
- E-Mail Anhang Export incl OCR Erkennung
- Benachrichtigung via Chat (Domänen User)

Vielen Dank für dein Leidenschaft, wo kann ich dir ein Bier ausgeben?

Viele Grüße

!&all · 23. Aug. 2022

Hi zusammen,

wie gehe ich denn am besten bei einem Update auf eine neue Version vor? Derzeit habe ich die Version 1.1.903 auf DSM7 instaliert und möchte nun auf die 1.2.0 aktualisieren. Muss ich das alte Paket erst löschen oder kann ich einfach "drüber installieren"? Vorher noch das Profil runterladen und das dann einfach bei der neuen Version importieren? Was muss ich noch beachten?

Besten Dank vorab!

Syngen · 23. Aug. 2022

Gthorsten schrieb:
Nein das reicht erstmal. Melde mich Sonntag abend wenn ich mehr weiß

Hallo @Gthorsten, hattest du schon Gelegenheit dir das anzuschauen?

Gruß
Artur

geimist · 23. Aug. 2022

sub2010 schrieb:
- Umwandlung von Bildern in PDF Dokumente
- E-Mail Anhang Export incl OCR Erkennung
- Benachrichtigung via Chat (Domänen User)

Vielen Dank für dein Leidenschaft, wo kann ich dir ein Bier ausgeben?

Hallo @sub2010,
Punkt 1 geht ab dem nächsten Release. Du kannst daher gerne die BETA (den snapshotbuild) verwenden. Derzeit wird nur noch an der verbesserten Datumsuche gefeilt. Punkt 2 & 3 stehen derzeit nicht auf der Liste. Aber was nicht ist, kann ja noch werden

. Zur letzten Frage gibt es auch eine Antwort unter vorherigen Link oder auf der Hilfeseite in der GUI

!&all schrieb:
wie gehe ich denn am besten bei einem Update auf eine neue Version vor?

Einfach drüber installieren. Ein Backup kannst du auch mit HyperBackup durchführen. Damit ist die Rücksicherung einfacher. Ich würde dir empfehlen, gleich die aktuelle Beta zu verwenden. Darin ist eine Updatebenachrichtigung implementiert, weil cphub ja keine Updates mehr liefert.

sub2010 · 23. Aug. 2022

Hallo @sub2010,
Punkt 1 geht ab dem nächsten Release. Du kannst daher gerne die BETA (den snapshotbuild) verwenden

Danke, die Beta funktioniert

Punkt 2 & 3 stehen derzeit nicht auf der Liste

Dann stelle ich einen Feature Request

- E-Mail Anhang Export incl OCR Erkennung
- Benachrichtigung via Chat (Domänen User)

Zur letzten Frage gibt es auch eine Antwort unter vorherigen Link oder auf der Hilfeseite in der GUI

Das kühle Blonde müsste angekommen sein

Den Punkt PushBullet-Token verstehe ich nicht. In deiner Hilfe Datei habe ich dazu nichts gefunden.

Wo werden Releases angekündigt?

geimist · 23. Aug. 2022

sub2010 schrieb:
Das kühle Blonde müsste angekommen sein

Da ging auch schon eine Email raus - vielen Dank

Den Punkt PushBullet-Token verstehe ich nicht. In deiner Hilfe Datei habe ich dazu nichts gefunden.

Wenn du PushBullet nutzt, kannst du dort deinen API-Token hinterlegen. So wirst du dann via Push informiert.

Wo werden Releases angekündigt?

Normalerweise lief das immer prima über cphub.net. Leider scheint das Projekt in den letzten Atemzügen zu liegen. Dazu ist dort die synOCR-Paketkonfiguration auch noch defekt und ich komme nicht ran.

Derzeit gibt es Releases

hier in diesem Thread (der Link in meiner Signatur verweist immer auf den aktuellsten Releasepost.
auf der Releasepage in meinem Git-Repo
ab dem nächsten Release (greift dann natürlich erst für spätere Versionen) auch in der GUI von synOCR (bzw. im Log).

Gthorsten · 25. Aug. 2022

Syngen schrieb:
Hallo Thorsten,

alles klar. Ich habe gerade auch noch 2 weitere Dokumente mit gleichem Problem gefunden falls du noch mehr Beispiele benötigst.

Danke schon mal.

Gruß
Artur

Hallo syngen,
Habe Stephan gerade mal eine geänderte Version geschickt.
Die solltest du mal testen.
Hat leider ein wenig länger gedauert, da das reale Leben mal wieder andere prios gesetzt hatte.
Gruß
Thorsten

Nico93 · 30. Aug. 2022

sub2010 schrieb:
Danke, die Beta funktioniert

Dann stelle ich einen Feature Request
- E-Mail Anhang Export incl OCR Erkennung
- Benachrichtigung via Chat (Domänen User)

Den Feature Request mit dem E-Mail Anhang Export finde ich super!

Ich nutze momentan als Workaround folgenden Python Tool. https://github.com/jamesridgway/attachment-downloader
Dieses lasse ich via Aufgabenplanung regelmäßig laufen und die E-Mail Anhänge werden automatisch in den OCR-Input Ordner gepackt.

geimist · 30. Aug. 2022

Vielen Dank für den Tipp

Ich will und kann ja das Rad auch nicht neu erfinden. Damit haben wir ja schon eine schöne Grundlage. Das wird aber nichts mehr für die aktuelle Beta.

Ich hab es mir jetzt noch nicht angesehen: wie werden bereits abgearbeiteten Mails gehandhabt?
Gibt es da einen Cache oder werden die Quellmails verschoben? Ich vermute, es läuft nur über die Zeitstempel, korrekt?

Yippie · 31. Aug. 2022

Hi!

Habe gerade ein Problem mit dem Update auf die aktuelle Beta.

Synocr hat im Einstiegsbild angeboten, dass ich ein Update (synOCR_DSM7_master_latest_(2022-08-29_15-33)_5c8e3dd_BETA.spk) laden kann. Daraufhin auf den Download geklickt und die pkg-Datei abgespeichert.

Anschließend im Paketmanager ein manuelles Update dieser Datei gestartet, was fehlgeschlagen ist. Es gab keine weitere Info dazu, außer

Aktuell ist das Paket nun in einem undefinierten Zustand und ich kann es lediglich deinstallieren.
Dies wird mir aber meine Einstellungen nun komplett löschen?

Ein weiterer Versuch zur manuellen Installation der gleichen Datei scheiterte ebenso.

Irgendeinen Tipp wie ich SynOCR wieder zum Laufen bewegen kann und v.a. dass meine Einstellungen nicht verloren gehen?

Danke!

Edit: der Versuch die alte Version 1.12.0 wieder zu installieren scheiterte ebenso, weil DSM behauptet ich würde bereits 1.12.0.12 besitzen, dies würde der Beta-Datei entsprechen, welche ich zuvor installieren wollte...

Edit2: Ein Neustart der DS brachte ebenfalls keinen Erfolg!

geimist · 31. Aug. 2022

Das ist ärgerlich

und tut mir leid

Den Fall hatten wir kürzlich schon mal. Nach Anpassung des start-stop-Skriptes funktionierte es dann. Besonders ärgerlich ist, dass man kaum Fehlermeldungen findet.

Könntest du dennoch mal bitte in folgenden Dateien etwaige Informationen zum entsprechenden Zeitpunkt suchen:

Code:

/var/log/synoscgi.log
/var/log/packages/synOCR.log
/tmp/synOCR.history

Bzgl. der Sicherung:
Versuch mal mit HyperBackup die Anwendung synOCR zu sichern. Alternativ (bzw. zusätzlich) kannst du auch über die Konsole die Datenbank manuell sichern:

cp /usr/syno/synoman/webman/3rdparty/synOCR/etc/synOCR.sqlite "/volume…/pfad/deiner/wahl/synOCR.sqlite"

@Tommes:
Hast du eine Idee, warum ein Update fehlschlägt? Ich lasse nun im start-stop-status Skrip das Monitoring mit starten, bzw. beenden. Dadurch ist nun in Verbindung mit den Inotify-Tools kein Aufgabenplaner mehr nötig. (CODE)
Hier gibt es hin und wieder dieses Problem mit dem fehlgeschlagenen Update.

Thonav · 31. Aug. 2022

Habs gelöscht... Danke

Yippie · 31. Aug. 2022

Kurzes Feedback:

Ich habe mir jetzt selbst beholfen und per SSH in /var/packages/synOCR die Datei INFO zunächst gesichert und dann aber die Versionsinfo, die bereits auf 1.12.0.12 stand abgeändert auf einen Dummy-Wert: 1.1.1.1

Anschließend erneut die alte synOCR mit Version 1.12.0 manuell installiert. Nun läuft zumindest alles wieder wir vorher und die Einstellungen sind ebenfalls vorhanden.

Ich wage jetzt aber keinen zweiten Versuch mit der aktuellen Beta mehr

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat