synOCR synOCR - GUI für OCRmyPDF

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Nein das reicht erstmal. Melde mich Sonntag abend wenn ich mehr weiß
 
  • Like
Reaktionen: Syngen

usefulvid

Benutzer
Mitglied seit
12. Sep 2018
Beiträge
57
Punkte für Reaktionen
3
Punkte
14
Ich nutze ocrmy pdf schon auf meinem Windows PC.
Ich möchte in meinem Scan Ordner direkt die PDFs überschreiben und mit OCR versehen.
Bisher war das mein Befehl:
Code:
ocrmypdf --output-type pdf -l deu+eng --rotate-pages --rotate-pages-threshold 2.0

Ich bekomme zwei dinge nun nicht hin:
Zum einen werden mit SynoOCR die Dateien nicht inplace überschrieben, auch wenn ich das Umbennenungsmuster entferne, zum anderen wird OCR ausgeführt bei Dateien die schon von ocrmypdf behandelt wurden.
Wie kann ich as mit SynOCR realisieren?
Im Changelog ist schon die Version 1.3 zu finden mit inotify support. Gibt es schon eine Beta oder ähnliches?
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Zum einen werden mit SynoOCR die Dateien nicht inplace überschrieben, auch wenn ich das Umbennenungsmuster entferne, zum anderen wird OCR ausgeführt bei Dateien die schon von ocrmypdf behandelt wurden.
Mit einem Präfix oder Suffix, den du entfernen lässt (Schalter in der GUI) kannst du auch den Inputordner als Outputordner verwenden. Wenn die Dateien erneut abgearbeitet werden, hast du möglicherweise noch ein weiteres Profil aktiv.

Im Changelog ist schon die Version 1.3 zu finden mit inotify support. Gibt es schon eine Beta oder ähnliches?
Hier den Snapshotbuild laden.
Die Intotify-Tools musst du separat installieren.
Im Aufgabenplaner musst du synOCR mit dem Parameter start ausführen:
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh start
 

usefulvid

Benutzer
Mitglied seit
12. Sep 2018
Beiträge
57
Punkte für Reaktionen
3
Punkte
14
1661022063936.png
1661022084540.png1661022053623.png
Mit einem Präfix oder Suffix, den du entfernen lässt (Schalter in der GUI)
Passen die Einstellungen so? Das scheint jetzt auch zu klappen mit dem Überschreiben.

Ein weiteres Profil ist nicht aktiv.
Wenn jetzt inotify eine neue Datei findet (oder ich das skript neu ausführe) werden auch die alten Dateien nochmal abgearbeitet die noch im Ordner liegen. Das war vorher bei meiner Ausführung in Windows nicht so.
Code:
Y:\Scans>ocrmypdf --output-type pdf -l deu+eng --rotate-pages --rotate-pages-threshold 2.0 SCN_0001.pdf SCN_0001.pdf
Scanning contents: 100%|███████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 62.44page/s]
OCR:   0%|                                                                                             | 0.0/1.0 [00:00<?, ?page/s]
PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR;  see also help for the arguments --skip-text and --redo-ocr

hm ok laut Log macht der das auch:
Code:
 ➜ OCRmyPDF-LOG:
                  WARNING: Error loading config file: .dockercfg: $HOME is not defined
                  reading file from standard input
                  PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR;  see also help for the arguments --skip-text and --redo-ocr
                ← OCRmyPDF-LOG-END

Komisch finde ich auch das hier:

Code:
file count total:     ➜ 53 PDF's / 223 Pages processed up to now
Macht der das rekursiv? Ich dachte gelesen zu haben der nimmt nur die oberste Ordner ebene? Da liegen nur eine Handvoll PDFs, keinesfalls 53.

Code:
URRENT FILE:   ➜ SCN_0004.pdf
                  temp. target file: /tmp/tmp.v2ke1K0HUV/SCN_0004.pdf

  -----------------------------------------------------------------------------------
  | processing PDF @ OCRmyPDF:                                                      |
  -----------------------------------------------------------------------------------

                ➜ OCRmyPDF-LOG:
                  WARNING: Error loading config file: .dockercfg: $HOME is not defined
                  reading file from standard input
                  Start processing 4 pages concurrently
                      4 [tesseract] Too few characters. Skipping this page
                      4 [tesseract] Error during processing.
                      4 page is facing ⇧, confidence 0.00 - no change
                      6 [tesseract] Too few characters. Skipping this page
                      6 [tesseract] Error during processing.
                      6 page is facing ⇧, confidence 0.00 - no change
                  PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR;  see also help for the arguments --skip-text and --redo-ocr
                ← OCRmyPDF-LOG-END

                  ┖➜ failed! (target file is empty or not available)



Am Ende sagt er zwar "has text" aber der geht alle files durch so wie das aussieht? Das erklärt auch warum die CPU so unter Last ist.

Ich will eigentlich nur folgendes:
Neue file -> mache ocr und ersetze die original mit der ocr_pdf

edit:
An den Logfiles kann ich sehen, dass sich ocrmypdf die ganze zeit wiederholt. Kann es sein, dass der ein Problem damit hat wenn Quelle und Ziel identisch sind? Das heißt ja er schreibt seine ocr file in das Verzeichnis und inotify merkt sofort wieder, dass da eine neue Datei liegt und das ganze geht von vorne los?
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Passen die Einstellungen so? Das scheint jetzt auch zu klappen mit dem Überschreiben.
Nein. Die Originaldateien brauchen z.B. einen Präfix, d.h. nur die Dateien mit diesem Muster werden verarbeitet. Dadurch, dass du dieses Muster entfernst, werden sie nicht erneut verarbeitet. Ein Beispiel: Dein Scanner beginnt jeden Datei mit dem Begriff SCAN_ und dann eine laufende Nummer, z.B. SCAN_01234.pdf. Nach dem Verarbeiten heißst sie dann nur noch 012345.pdf

Das war vorher bei meiner Ausführung in Windows nicht so.
synOCR übernimmt das komplette Dateihandling. Das läuft ein wenig anders, also nativ mit OCRmyPDF.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Kann ich auch die original Datei löschen lassen? Und wenn ja wie?
Alle Originaldateien werden in das Backupverzeichnis verschoben. Lass einfach das Backupverzeichnis leer oder verwende als Ziel den Papierkorb.
 
  • Like
Reaktionen: usefulvid

sub2010

Benutzer
Mitglied seit
19. Jan 2021
Beiträge
105
Punkte für Reaktionen
7
Punkte
18
Hallo @geimist,

vielen Dank für dieses tolle Tool. Ich bin erst vor kurzem drauf gestoßen und es zeichnet sich durch die super Integration in der Drive aus.

Ich weiß nicht ob diese Ideen schon mal aufkamen, ich konnte Sie hier nicht finden.
Ich möchte dennoch Nachfragen ob es einen Plan dazu gibt.
- Umwandlung von Bildern in PDF Dokumente
- E-Mail Anhang Export incl OCR Erkennung
- Benachrichtigung via Chat (Domänen User)

Vielen Dank für dein Leidenschaft, wo kann ich dir ein Bier ausgeben?

Viele Grüße
 

!&all

Benutzer
Mitglied seit
03. Sep 2010
Beiträge
16
Punkte für Reaktionen
4
Punkte
3
Hi zusammen,

wie gehe ich denn am besten bei einem Update auf eine neue Version vor? Derzeit habe ich die Version 1.1.903 auf DSM7 instaliert und möchte nun auf die 1.2.0 aktualisieren. Muss ich das alte Paket erst löschen oder kann ich einfach "drüber installieren"? Vorher noch das Profil runterladen und das dann einfach bei der neuen Version importieren? Was muss ich noch beachten?

Besten Dank vorab!
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
- Umwandlung von Bildern in PDF Dokumente
- E-Mail Anhang Export incl OCR Erkennung
- Benachrichtigung via Chat (Domänen User)

Vielen Dank für dein Leidenschaft, wo kann ich dir ein Bier ausgeben?
Hallo @sub2010,
Punkt 1 geht ab dem nächsten Release. Du kannst daher gerne die BETA (den snapshotbuild) verwenden. Derzeit wird nur noch an der verbesserten Datumsuche gefeilt. Punkt 2 & 3 stehen derzeit nicht auf der Liste. Aber was nicht ist, kann ja noch werden :) . Zur letzten Frage gibt es auch eine Antwort unter vorherigen Link oder auf der Hilfeseite in der GUI :cool:

wie gehe ich denn am besten bei einem Update auf eine neue Version vor?
Einfach drüber installieren. Ein Backup kannst du auch mit HyperBackup durchführen. Damit ist die Rücksicherung einfacher. Ich würde dir empfehlen, gleich die aktuelle Beta zu verwenden. Darin ist eine Updatebenachrichtigung implementiert, weil cphub ja keine Updates mehr liefert.
 
Zuletzt bearbeitet:
  • Like
Reaktionen: !&all

sub2010

Benutzer
Mitglied seit
19. Jan 2021
Beiträge
105
Punkte für Reaktionen
7
Punkte
18
Hallo @sub2010,
Punkt 1 geht ab dem nächsten Release. Du kannst daher gerne die BETA (den snapshotbuild) verwenden
Danke, die Beta funktioniert (y)

Punkt 2 & 3 stehen derzeit nicht auf der Liste
Dann stelle ich einen Feature Request :)
- E-Mail Anhang Export incl OCR Erkennung
- Benachrichtigung via Chat (Domänen User)

Zur letzten Frage gibt es auch eine Antwort unter vorherigen Link oder auf der Hilfeseite in der GUI :cool:
Das kühle Blonde müsste angekommen sein ;)

❓ Den Punkt PushBullet-Token verstehe ich nicht. In deiner Hilfe Datei habe ich dazu nichts gefunden.

❓Wo werden Releases angekündigt?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Das kühle Blonde müsste angekommen sein ;)
Da ging auch schon eine Email raus - vielen Dank 😍

❓ Den Punkt PushBullet-Token verstehe ich nicht. In deiner Hilfe Datei habe ich dazu nichts gefunden.
Wenn du PushBullet nutzt, kannst du dort deinen API-Token hinterlegen. So wirst du dann via Push informiert.

❓Wo werden Releases angekündigt?
Normalerweise lief das immer prima über cphub.net. Leider scheint das Projekt in den letzten Atemzügen zu liegen. Dazu ist dort die synOCR-Paketkonfiguration auch noch defekt und ich komme nicht ran.

Derzeit gibt es Releases
  • hier in diesem Thread (der Link in meiner Signatur verweist immer auf den aktuellsten Releasepost.
  • auf der Releasepage in meinem Git-Repo
  • ab dem nächsten Release (greift dann natürlich erst für spätere Versionen) auch in der GUI von synOCR (bzw. im Log).
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Hallo Thorsten,

alles klar. Ich habe gerade auch noch 2 weitere Dokumente mit gleichem Problem gefunden falls du noch mehr Beispiele benötigst.

Danke schon mal.

Gruß
Artur
Hallo syngen,
Habe Stephan gerade mal eine geänderte Version geschickt.
Die solltest du mal testen.
Hat leider ein wenig länger gedauert, da das reale Leben mal wieder andere prios gesetzt hatte.
Gruß
Thorsten
 
  • Like
Reaktionen: Syngen

Nico93

Benutzer
Mitglied seit
07. Jul 2020
Beiträge
4
Punkte für Reaktionen
1
Punkte
53
Danke, die Beta funktioniert (y)


Dann stelle ich einen Feature Request :)
- E-Mail Anhang Export incl OCR Erkennung
- Benachrichtigung via Chat (Domänen User)
Den Feature Request mit dem E-Mail Anhang Export finde ich super!

Ich nutze momentan als Workaround folgenden Python Tool. https://github.com/jamesridgway/attachment-downloader
Dieses lasse ich via Aufgabenplanung regelmäßig laufen und die E-Mail Anhänge werden automatisch in den OCR-Input Ordner gepackt.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Vielen Dank für den Tipp :D
Ich will und kann ja das Rad auch nicht neu erfinden. Damit haben wir ja schon eine schöne Grundlage. Das wird aber nichts mehr für die aktuelle Beta.

Ich hab es mir jetzt noch nicht angesehen: wie werden bereits abgearbeiteten Mails gehandhabt?
Gibt es da einen Cache oder werden die Quellmails verschoben? Ich vermute, es läuft nur über die Zeitstempel, korrekt?
 
Zuletzt bearbeitet:
  • Like
Reaktionen: Nico93

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Hi!

Habe gerade ein Problem mit dem Update auf die aktuelle Beta.

Synocr hat im Einstiegsbild angeboten, dass ich ein Update (synOCR_DSM7_master_latest_(2022-08-29_15-33)_5c8e3dd_BETA.spk) laden kann. Daraufhin auf den Download geklickt und die pkg-Datei abgespeichert.

Anschließend im Paketmanager ein manuelles Update dieser Datei gestartet, was fehlgeschlagen ist. Es gab keine weitere Info dazu, außer
1661935892437.png
Aktuell ist das Paket nun in einem undefinierten Zustand und ich kann es lediglich deinstallieren.
Dies wird mir aber meine Einstellungen nun komplett löschen?

Ein weiterer Versuch zur manuellen Installation der gleichen Datei scheiterte ebenso.

Irgendeinen Tipp wie ich SynOCR wieder zum Laufen bewegen kann und v.a. dass meine Einstellungen nicht verloren gehen?

Danke!

Edit: der Versuch die alte Version 1.12.0 wieder zu installieren scheiterte ebenso, weil DSM behauptet ich würde bereits 1.12.0.12 besitzen, dies würde der Beta-Datei entsprechen, welche ich zuvor installieren wollte...

Edit2: Ein Neustart der DS brachte ebenfalls keinen Erfolg!
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Das ist ärgerlich :mad: und tut mir leid 🤕
Den Fall hatten wir kürzlich schon mal. Nach Anpassung des start-stop-Skriptes funktionierte es dann. Besonders ärgerlich ist, dass man kaum Fehlermeldungen findet.

Könntest du dennoch mal bitte in folgenden Dateien etwaige Informationen zum entsprechenden Zeitpunkt suchen:
Code:
/var/log/synoscgi.log
/var/log/packages/synOCR.log
/tmp/synOCR.history

Bzgl. der Sicherung:
Versuch mal mit HyperBackup die Anwendung synOCR zu sichern. Alternativ (bzw. zusätzlich) kannst du auch über die Konsole die Datenbank manuell sichern:

cp /usr/syno/synoman/webman/3rdparty/synOCR/etc/synOCR.sqlite "/volume…/pfad/deiner/wahl/synOCR.sqlite"

@Tommes:
Hast du eine Idee, warum ein Update fehlschlägt? Ich lasse nun im start-stop-status Skrip das Monitoring mit starten, bzw. beenden. Dadurch ist nun in Verbindung mit den Inotify-Tools kein Aufgabenplaner mehr nötig. (CODE)
Hier gibt es hin und wieder dieses Problem mit dem fehlgeschlagenen Update.
 
Zuletzt bearbeitet:

Thonav

Benutzer
Sehr erfahren
Mitglied seit
16. Feb 2014
Beiträge
7.890
Punkte für Reaktionen
1.510
Punkte
274
Habs gelöscht... Danke
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Kurzes Feedback:

Ich habe mir jetzt selbst beholfen und per SSH in /var/packages/synOCR die Datei INFO zunächst gesichert und dann aber die Versionsinfo, die bereits auf 1.12.0.12 stand abgeändert auf einen Dummy-Wert: 1.1.1.1

Anschließend erneut die alte synOCR mit Version 1.12.0 manuell installiert. Nun läuft zumindest alles wieder wir vorher und die Einstellungen sind ebenfalls vorhanden.

Ich wage jetzt aber keinen zweiten Versuch mit der aktuellen Beta mehr ;)
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat