synOCR synOCR - GUI für OCRmyPDF

geimist · 20. Feb 2022

Rotbart schrieb:
OT: wie kann ich hier Code einfügen ?

Bildschirmfoto 2022-02-20 um 20.42.53.png

mamema · 21. Feb 2022

geimist schrieb:
Sofern sich die Dateien auf dem gleichen Volume wie der Outputordner befinden, werden lediglich Hardlinks gesetzt. Natürlich gibt es mehrere Zieldateien, sofern auch mehrere Regeln erfüllt sind. Ich würde mir aber nicht anmaßen, hier per Software zu definieren, welcher Zielordner jetzt wichtiger wäre, um so auf ein 'Duplikat' verzichten zu können.

naja, MIR würde helfen, wenn ich ein Flag setzen könnte a'la nodubs=1. Ist es in einem Ordner bereits abgelegt, keine weiteren Ablagen. Dann bist nicht Du "schuld".

geimist · 21. Feb 2022

Dein Wunsch ähnelt auch den, dass sich manche eine Priorisierung für die Regel wünschen. Ich schreibe es mir mal mit auf.

Nurbi · 24. Feb 2022

Hallo zusammen, bin ganz neu hier. Ich sehe, dass hier echte Profis am Werk sind, zu denen gehöre ich nicht. Meine Aufgabe ist, alle die externen Clouds (GoogleDrive, Evernote, ...) heimzuholen. Das meiste passt ganz gut, aber ich kämpfe mit gewissen PDF‘s. Es fehlt mir einfach das Verständnis und ich hoffen, hier auf Erleuchtung zu stossen.

SynOCR/OCRmyPDF sind super, genau das, was ich brauche und funktioniert bei einem grossen Teil der PDF‘s. Leider gibt es zahlreiche Ausnahmen. Stellvertretend dafür beschreibe ich ein Dokument, ein Rezept. Das ist in seiner Originalversion durchsuchbar, d.h. ich kann im geöffneten Dokument etwas suchen. Was ich nicht verstehe ist, dass es durch Universal Search nicht indiziert wird, Inhalte werden nicht gefunden. NB: auf Evernote findet eine ganz normale Indizierung statt.

Nun: lasse ich das Dok durch synOCR, wird es nachher immer noch nicht indiziert, mehr noch, es ist nachher auch nicht mehr manuell durchsuchbar. Zudem stelle ich fest:

Im Log-Ordner wird der Textlayer abgelegt. Dieser kann mit dem Editor angeschaut werden. Im Falle der nicht funktionierenden PDF‘s gibt es dieses Textfile auch, Grösse 1 Byte, Inhalt wahrscheinlich ein Sonderzeichen, dargestellt durch einen Punkt
Das Output PDF scheint ein Image zu sein (habe sowohl mit der Option -s als auch -f probiert)
Ich erhalte im Logfile einen Fehler „./synOCR.sh: line 1779: /dev/ttyS1: Permission denied“. ABER: derselbe Fehler wird auch bei funktionierenden PDF‘s ausgewiesen, daran kann es wahrscheinlich nicht liegen.

Versteht jemand das Problem? Habe das Original-PDF plus das Logfile (Umbenannt in ...txt, Loglevel=2, von einem run, welcher nur genau dieses File verarbeitet) angehängt.

Vielen vielen vielen Dank im Voraus für jede Hilfe.

geimist · 24. Feb 2022

Herzlich willkommen hier im Forum, @Nurbi

Also bei mir funktioniert es einwandfrei und auch das geloggte Textfile ist vollständig.

Bitte teste mal nacheinander die 2 Sachen:

probiere mal ein älteres OCRmyPDF Image, z.B. jbarlow83/ocrmypdf:v12.7.2
das musst du in der Docker-App ➜ Registrierung suchen und laden.
Anschließend musst du es noch in synOCR deinem Profil zuweisen (dafür gibt es eine Listbox)
setz mal noch zusätzlich den OCRmyPDF-Parameter: --pdf-renderer hocr

Es wäre gut, wenn du wirklich nacheinander testest, damit wir es eingrenzen können.

Nurbi · 25. Feb 2022

Vielen Dank, dass Du Dich damit befasst und Ideen bringst.
Leider hat es gar nichts gebracht. Ich habe, wie von Dir gewünscht, in zwei Schritten getestet. Ich scheine alles korrekt gemacht zu haben, siehe Auszug aus dem Log nach dem zweiten Schritt:

used image (created): jbarlow83/ocrmypdf:v12.7.2 (2021-11-04T21:53:21)
used ocr-parameter (raw): -srd -l deu+eng --pdf-renderer hocr
OCR-arg 1: -srd
OCR-arg 2: -l
OCR-arg 3: deu+eng
OCR-arg 4: --pdf-renderer
OCR-arg 5: hocr
ocropt_array: -srd -l deu+eng --pdf-renderer hocr

Soweit ich das beurteilen kann, sind die Argumente korrekt geparsed?
Noch eine Frage: wird mein Test-PDF bei Dir auch ohne OCR Lauf durch Universal Search indiziert?
Vielen Dank, dass Du mir hilfst, bin echt im Elend.
Gruss Bruno

geimist · 25. Feb 2022

Was ich mir zuerst gar nicht angesehen hatte, ist die Verschlüsselung. Dein Original ist Eigentümer verschlüsselt. Wahrscheinlich wird es daher nicht korrekt indiziert (das ist auch bei mir so - wenn ich nach Dinkelmehl suche, finde ich nur die Ausgabedatei von synOCR, nicht aber das Original). Meiner Meinung nach sollte UniversalSearch hier besser arbeiten. Vielleicht ist das ein Bug von UniversalSearch.

Bildschirmfoto 2022-02-25 um 12.37.57.png

Nordlicht01 · 25. Feb 2022

Hallo in die Runde,

ich habe mir gestern SynOCR unter DSM 7 installiert. Soweit scheint alles zu laufen. Aber im Logfile habe ich zwei Fehlermeldungen

WARNING: Error loading config file: .dockercfg: $HOME is not defined

und

./synOCR.sh: line 1779: /dev/ttyS1: Permission denied ERROR at line 1779: echo 2 > /dev/ttyS1
 INFO: (PushBullet-TOKEN not set)

Wie bekomme ich die weg? Oder sind die unkritisch?

geimist · 25. Feb 2022

Kommt von Docker seit dessen letzter Versionsanhebung. Das hat nichts mit synOCR zu tun und hat auch keine Auswirkungen.
Diese Zeile hätte den in der GUI aktivierten Piep bei einem abgeschlossenen PDF ausgelöst. Das geht nur vom User root und auch nicht im vDSM.
Ist selbstredend nur eine Info, dass kein PushBullet-Token hinterlegt / konfiguriert ist.

Nurbi · 26. Feb 2022

geimist schrieb:
finde ich nur die Ausgabedatei von synOCR, nicht aber das Original)

Das heisst aber, dass bei Dir synOCR auch mit diesem File korrekt arbeitet.

. Bei mir sind die synOCR outputs, sowohl der Textlayer als auch das resultierende PDF, nicht zu gebrauchen: der Textlayer, wie gesagt, 1 Byte gross und das PDF eher wie in Image, d.h. per find im Dokument Viewer wird gar nichts mehr gefunden und ich kann z.B. mittels Doppelklick kein Wort mehr markieren.
Wenn ich Dich richtig verstehe, bist Du auch der Meinung, dass Universal Search zwar bereits das Original indizieren sollte, dass aber bei Dir der Output von synOCR korrekt indiziert wird?!
Was mache ich wohl falsch? Wenn ich das nicht in den Griff kriege, schmeisse ich mein NAS weg und gehe wieder zu Evernote :-(

geimist · 26. Feb 2022

Dann nutze mal -frd -l deu+eng (statt -srd -l deu+eng).
-s steht für skip text
-f steht für force OCR

Nurbi · 27. Feb 2022

Ich habe den -f Parameter schon mal versucht, erfolglos. Die aktuelle Kombination ( -f und das alte Image) läuft korrekt, jupii, danke schön

. Erwartest Du irgendwelche Sideeffects, wenn ich den Prozess basierend auf -f und altem Image automatisiere, d.h. dass alle alle PDF's da durchlaufen? Ich weiss, ich muss das selber testen, aber vielleicht hast Du da irgendwelche Erfahrung?
Vielen Dank für Deine Hilfe.
Gruss Bruno
PS: Habe ein Ticket bei Synology eröffnet bez. Universal Search, habe das Dinkel-PDF mitgeschickt.

Nurbi · 27. Feb 2022

Nachtrag: Vergessen zu sagen: habe die Parameter von Deinem vorletzten Vorschlag immer noch drin, d.h. es läuft jetzt korrekt mit:

OCR-arg 1: -frd
OCR-arg 2: -l
OCR-arg 3: deu+eng
OCR-arg 4: --pdf-renderer
OCR-arg 5: hocr
ocropt_array: -frd -l deu+eng --pdf-renderer hocr

Und entsprechend ist meine Frage, ob Du denkst, dass ich das genau so automatisieren kann - danke

geimist · 27. Feb 2022

Prinzipiell wird das schon funktionieren, allerdings musst du die nachstehende Bedeutung von diesem Parameter verstehen:

Wenn -f / --force-ocr angegeben wird, werden alle Seiten in Bilder gerastert, wobei jeglicher verborgene OCR-Text verworfen und jeglicher druckbare Text gerastert wird. Dies ist nützlich, um OCR wiederherzustellen, OCR-Text mit einer beschädigten Zeichentabelle zu reparieren (Text ist auswählbar, aber nicht durchsuchbar) und geschwärzte Informationen zu zerstören. Alle Formulare und Vektorgrafiken werden ebenfalls gerastert.

Verwendest du permanent diesen Parameter, so kann das dazu führen, dass die Dokumente größer werden.

Alternative:

wenn du regelmäßig PDFs aus dieser Quelle hast, dann leg evtl. ein separates Profil dafür an und nur hier brauchst du dann den Parameter -f anzugeben
Wenn du das PDF nicht direkt von der Seite herunterlädst, sondern in ein PDF druckst, könnte es ebenfalls das Problem lösen

Du hast halt schon ein 'spezielles' PDF (es ist verschlüsselt!). Der meistgenutzte Workflow bezieht sich ja auf gescannte PDFs, welche nur eine Bilddatei enthalten. Da muss man in der Regel dann auch nicht solche Klimmzüge machen.

blinky911 · 27. Feb 2022

Da habe ich generell mal eine Frage. Ich teste gerade Dolibarr und dort gibt es auch eine OCR Funktionen. Allerdings nur in Verbindung mit (https://ocr.cap-rel.fr).
Wäre es möglich das man die Syno als Server nutzt?

geimist · 27. Feb 2022

Vielleicht könnte man da so etwas nachbauen, aber im jetzigen Stand gibt es da keine API, welche man von außen ansprechen könnte.

EDIT:
vielleicht hilft dir das weiter: https://registry.hub.docker.com/r/otiai10/ocrserver/

Nurbi · 28. Feb 2022

geimist schrieb:
PDF nicht direkt von der Seite herunterlädst, sondern in ein PDF druckst, könnte

Super Stephan, vielen Dank, das ist für uns die Lösung, funktioniert perfekt. Ich habe jetzt wieder auf -s und das :latest Image umgestellt, alles i.O.
Eine kleine Frage habe ich noch, da konnte ich nichts dazu finden. Was erreicht man mit dem Parameter --pdf-renderer hocr ?
Nochmals vielen Dank für Deinen freundlichen Support.
Jetzt widme ich mich noch dem letzten Problem: Onlyoffice auf Nextcloud auf meiner Synology. Läuft bereits alles, aber ich habe unexpected behaviours. Du bist nicht per Zufall auch ein Crack in diesem Thema?
Beste Grüsse,
Bruno

geimist · 28. Feb 2022

Nurbi schrieb:
Was erreicht man mit dem Parameter --pdf-renderer hocr ?

Das ist ein anderer PDF-Renderer. War ein Versuch wert bei dir (kannst du auch so lassen).
Ich nutze den aus diesem Grund: https://www.synology-forum.de/threa...fragezeichen-statt-buchstaben-im-text.118740/

Onlyoffice auf Nextcloud auf meiner Synology. … Du bist nicht per Zufall auch ein Crack in diesem Thema?

Nein - mach am Besten einen eigenen Thread dazu auf.

geimist · 13. Mrz 2022

Hallo zusammen,

weil sich so viele eine Ordnerüberwachung gewünscht hatten, hatte ich die letzten Wochen mal Stück für Stück gebastelt.
Zwei Voraussetzungen müssen dafür erfüllt sein:

die nötigen inotify-tools müssen manuell installiert werden (LINK)
das Startskript muss um den Parameter start erweitert werden (auch stop wird ausgewertet, sofern mal benötigt)
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh start

Es gibt eine spezielle Logdatei, welche die inotify-Ereignisse mitschreiben soll (die Datei inotify.log parallel in jedem Logverzeichnis).
Es werden alle aktiven Inputverzeichnisse überwacht. Gibt es an der Liste der Inputverzeichnisse eine Änderung, so muss mit dem obigen Aufruf ein Neustart initiiert werden.
Ein aktives Monitoring ist am pulsierenden grünen Icon auf der Startseite zu erkennen

Ich stelle das SPK zunächst mal parallel zum Testen als Prerelease zur Verfügung und bin auf euer Feedback gespannt:

Hier die beiden Downloads, wer sie manuell laden möchte:

➜ DSM6

➜ DSM7

Viel Spaß damit

@tag @olli2 @koen @Ge-LA