synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
  • Like
Reaktionen: Rotbart

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
Sofern sich die Dateien auf dem gleichen Volume wie der Outputordner befinden, werden lediglich Hardlinks gesetzt. Natürlich gibt es mehrere Zieldateien, sofern auch mehrere Regeln erfüllt sind. Ich würde mir aber nicht anmaßen, hier per Software zu definieren, welcher Zielordner jetzt wichtiger wäre, um so auf ein 'Duplikat' verzichten zu können.
naja, MIR würde helfen, wenn ich ein Flag setzen könnte a'la nodubs=1. Ist es in einem Ordner bereits abgelegt, keine weiteren Ablagen. Dann bist nicht Du "schuld".
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Dein Wunsch ähnelt auch den, dass sich manche eine Priorisierung für die Regel wünschen. Ich schreibe es mir mal mit auf.
 

Nurbi

Benutzer
Mitglied seit
23. Feb 2022
Beiträge
13
Punkte für Reaktionen
0
Punkte
1
Hallo zusammen, bin ganz neu hier. Ich sehe, dass hier echte Profis am Werk sind, zu denen gehöre ich nicht. Meine Aufgabe ist, alle die externen Clouds (GoogleDrive, Evernote, ...) heimzuholen. Das meiste passt ganz gut, aber ich kämpfe mit gewissen PDF‘s. Es fehlt mir einfach das Verständnis und ich hoffen, hier auf Erleuchtung zu stossen.

SynOCR/OCRmyPDF sind super, genau das, was ich brauche und funktioniert bei einem grossen Teil der PDF‘s. Leider gibt es zahlreiche Ausnahmen. Stellvertretend dafür beschreibe ich ein Dokument, ein Rezept. Das ist in seiner Originalversion durchsuchbar, d.h. ich kann im geöffneten Dokument etwas suchen. Was ich nicht verstehe ist, dass es durch Universal Search nicht indiziert wird, Inhalte werden nicht gefunden. NB: auf Evernote findet eine ganz normale Indizierung statt.

Nun: lasse ich das Dok durch synOCR, wird es nachher immer noch nicht indiziert, mehr noch, es ist nachher auch nicht mehr manuell durchsuchbar. Zudem stelle ich fest:

  • Im Log-Ordner wird der Textlayer abgelegt. Dieser kann mit dem Editor angeschaut werden. Im Falle der nicht funktionierenden PDF‘s gibt es dieses Textfile auch, Grösse 1 Byte, Inhalt wahrscheinlich ein Sonderzeichen, dargestellt durch einen Punkt
  • Das Output PDF scheint ein Image zu sein (habe sowohl mit der Option -s als auch -f probiert)
  • Ich erhalte im Logfile einen Fehler „./synOCR.sh: line 1779: /dev/ttyS1: Permission denied“. ABER: derselbe Fehler wird auch bei funktionierenden PDF‘s ausgewiesen, daran kann es wahrscheinlich nicht liegen.
Versteht jemand das Problem? Habe das Original-PDF plus das Logfile (Umbenannt in ...txt, Loglevel=2, von einem run, welcher nur genau dieses File verarbeitet) angehängt.

Vielen vielen vielen Dank im Voraus für jede Hilfe.
 

Anhänge

  • synOCR_2022-02-23_14-11-13.txt
    8,3 KB · Aufrufe: 10
  • Dinkelbrot-mit-Kernen-ohne-Kneten.pdf
    110,5 KB · Aufrufe: 6

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Herzlich willkommen hier im Forum, @Nurbi :)

Also bei mir funktioniert es einwandfrei und auch das geloggte Textfile ist vollständig.

Bitte teste mal nacheinander die 2 Sachen:
  1. probiere mal ein älteres OCRmyPDF Image, z.B. jbarlow83/ocrmypdf:v12.7.2
    das musst du in der Docker-App ➜ Registrierung suchen und laden.
    Anschließend musst du es noch in synOCR deinem Profil zuweisen (dafür gibt es eine Listbox)
  2. setz mal noch zusätzlich den OCRmyPDF-Parameter: --pdf-renderer hocr
Es wäre gut, wenn du wirklich nacheinander testest, damit wir es eingrenzen können.
 

Nurbi

Benutzer
Mitglied seit
23. Feb 2022
Beiträge
13
Punkte für Reaktionen
0
Punkte
1
Vielen Dank, dass Du Dich damit befasst und Ideen bringst.
Leider hat es gar nichts gebracht. Ich habe, wie von Dir gewünscht, in zwei Schritten getestet. Ich scheine alles korrekt gemacht zu haben, siehe Auszug aus dem Log nach dem zweiten Schritt:

used image (created): jbarlow83/ocrmypdf:v12.7.2 (2021-11-04T21:53:21)
used ocr-parameter (raw): -srd -l deu+eng --pdf-renderer hocr
OCR-arg 1: -srd
OCR-arg 2: -l
OCR-arg 3: deu+eng
OCR-arg 4: --pdf-renderer
OCR-arg 5: hocr
ocropt_array: -srd -l deu+eng --pdf-renderer hocr

Soweit ich das beurteilen kann, sind die Argumente korrekt geparsed?
Noch eine Frage: wird mein Test-PDF bei Dir auch ohne OCR Lauf durch Universal Search indiziert?
Vielen Dank, dass Du mir hilfst, bin echt im Elend.
Gruss Bruno
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Was ich mir zuerst gar nicht angesehen hatte, ist die Verschlüsselung. Dein Original ist Eigentümer verschlüsselt. Wahrscheinlich wird es daher nicht korrekt indiziert (das ist auch bei mir so - wenn ich nach Dinkelmehl suche, finde ich nur die Ausgabedatei von synOCR, nicht aber das Original). Meiner Meinung nach sollte UniversalSearch hier besser arbeiten. Vielleicht ist das ein Bug von UniversalSearch.

Bildschirmfoto 2022-02-25 um 12.37.57.png
 

Nordlicht01

Benutzer
Mitglied seit
31. Aug 2014
Beiträge
271
Punkte für Reaktionen
10
Punkte
18
Hallo in die Runde,

ich habe mir gestern SynOCR unter DSM 7 installiert. Soweit scheint alles zu laufen. Aber im Logfile habe ich zwei Fehlermeldungen

WARNING: Error loading config file: .dockercfg: $HOME is not defined

und

./synOCR.sh: line 1779: /dev/ttyS1: Permission denied ERROR at line 1779: echo 2 > /dev/ttyS1 INFO: (PushBullet-TOKEN not set)

Wie bekomme ich die weg? Oder sind die unkritisch?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
  1. Kommt von Docker seit dessen letzter Versionsanhebung. Das hat nichts mit synOCR zu tun und hat auch keine Auswirkungen.
  2. Diese Zeile hätte den in der GUI aktivierten Piep bei einem abgeschlossenen PDF ausgelöst. Das geht nur vom User root und auch nicht im vDSM.
  3. Ist selbstredend nur eine Info, dass kein PushBullet-Token hinterlegt / konfiguriert ist.
 
  • Like
Reaktionen: Nordlicht01

Nurbi

Benutzer
Mitglied seit
23. Feb 2022
Beiträge
13
Punkte für Reaktionen
0
Punkte
1
finde ich nur die Ausgabedatei von synOCR, nicht aber das Original)
Das heisst aber, dass bei Dir synOCR auch mit diesem File korrekt arbeitet. 🤔. Bei mir sind die synOCR outputs, sowohl der Textlayer als auch das resultierende PDF, nicht zu gebrauchen: der Textlayer, wie gesagt, 1 Byte gross und das PDF eher wie in Image, d.h. per find im Dokument Viewer wird gar nichts mehr gefunden und ich kann z.B. mittels Doppelklick kein Wort mehr markieren.
Wenn ich Dich richtig verstehe, bist Du auch der Meinung, dass Universal Search zwar bereits das Original indizieren sollte, dass aber bei Dir der Output von synOCR korrekt indiziert wird?!
Was mache ich wohl falsch? Wenn ich das nicht in den Griff kriege, schmeisse ich mein NAS weg und gehe wieder zu Evernote :-(
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Dann nutze mal -frd -l deu+eng (statt -srd -l deu+eng).
-s steht für skip text
-f steht für force OCR
 

Nurbi

Benutzer
Mitglied seit
23. Feb 2022
Beiträge
13
Punkte für Reaktionen
0
Punkte
1
Ich habe den -f Parameter schon mal versucht, erfolglos. Die aktuelle Kombination ( -f und das alte Image) läuft korrekt, jupii, danke schön :) . Erwartest Du irgendwelche Sideeffects, wenn ich den Prozess basierend auf -f und altem Image automatisiere, d.h. dass alle alle PDF's da durchlaufen? Ich weiss, ich muss das selber testen, aber vielleicht hast Du da irgendwelche Erfahrung?
Vielen Dank für Deine Hilfe.
Gruss Bruno
PS: Habe ein Ticket bei Synology eröffnet bez. Universal Search, habe das Dinkel-PDF mitgeschickt.
 

Nurbi

Benutzer
Mitglied seit
23. Feb 2022
Beiträge
13
Punkte für Reaktionen
0
Punkte
1
Nachtrag: Vergessen zu sagen: habe die Parameter von Deinem vorletzten Vorschlag immer noch drin, d.h. es läuft jetzt korrekt mit:

OCR-arg 1: -frd
OCR-arg 2: -l
OCR-arg 3: deu+eng
OCR-arg 4: --pdf-renderer
OCR-arg 5: hocr
ocropt_array: -frd -l deu+eng --pdf-renderer hocr

Und entsprechend ist meine Frage, ob Du denkst, dass ich das genau so automatisieren kann - danke
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Prinzipiell wird das schon funktionieren, allerdings musst du die nachstehende Bedeutung von diesem Parameter verstehen:
Wenn -f / --force-ocr angegeben wird, werden alle Seiten in Bilder gerastert, wobei jeglicher verborgene OCR-Text verworfen und jeglicher druckbare Text gerastert wird. Dies ist nützlich, um OCR wiederherzustellen, OCR-Text mit einer beschädigten Zeichentabelle zu reparieren (Text ist auswählbar, aber nicht durchsuchbar) und geschwärzte Informationen zu zerstören. Alle Formulare und Vektorgrafiken werden ebenfalls gerastert.
Verwendest du permanent diesen Parameter, so kann das dazu führen, dass die Dokumente größer werden.

Alternative:
  • wenn du regelmäßig PDFs aus dieser Quelle hast, dann leg evtl. ein separates Profil dafür an und nur hier brauchst du dann den Parameter -f anzugeben
  • Wenn du das PDF nicht direkt von der Seite herunterlädst, sondern in ein PDF druckst, könnte es ebenfalls das Problem lösen
Du hast halt schon ein 'spezielles' PDF (es ist verschlüsselt!). Der meistgenutzte Workflow bezieht sich ja auf gescannte PDFs, welche nur eine Bilddatei enthalten. Da muss man in der Regel dann auch nicht solche Klimmzüge machen.
 

blinky911

Benutzer
Mitglied seit
04. Jul 2021
Beiträge
97
Punkte für Reaktionen
0
Punkte
6
Da habe ich generell mal eine Frage. Ich teste gerade Dolibarr und dort gibt es auch eine OCR Funktionen. Allerdings nur in Verbindung mit (https://ocr.cap-rel.fr).
Wäre es möglich das man die Syno als Server nutzt?

ocr.png
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Zuletzt bearbeitet:

Nurbi

Benutzer
Mitglied seit
23. Feb 2022
Beiträge
13
Punkte für Reaktionen
0
Punkte
1
PDF nicht direkt von der Seite herunterlädst, sondern in ein PDF druckst, könnte
Super Stephan, vielen Dank, das ist für uns die Lösung, funktioniert perfekt. Ich habe jetzt wieder auf -s und das :latest Image umgestellt, alles i.O.
Eine kleine Frage habe ich noch, da konnte ich nichts dazu finden. Was erreicht man mit dem Parameter --pdf-renderer hocr ?
Nochmals vielen Dank für Deinen freundlichen Support.
Jetzt widme ich mich noch dem letzten Problem: Onlyoffice auf Nextcloud auf meiner Synology. Läuft bereits alles, aber ich habe unexpected behaviours. Du bist nicht per Zufall auch ein Crack in diesem Thema?
Beste Grüsse,
Bruno
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Was erreicht man mit dem Parameter --pdf-renderer hocr ?
Das ist ein anderer PDF-Renderer. War ein Versuch wert bei dir (kannst du auch so lassen).
Ich nutze den aus diesem Grund: https://www.synology-forum.de/threa...fragezeichen-statt-buchstaben-im-text.118740/

Onlyoffice auf Nextcloud auf meiner Synology. … Du bist nicht per Zufall auch ein Crack in diesem Thema?
Nein - mach am Besten einen eigenen Thread dazu auf.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Hallo zusammen,

weil sich so viele eine Ordnerüberwachung gewünscht hatten, hatte ich die letzten Wochen mal Stück für Stück gebastelt.
Zwei Voraussetzungen müssen dafür erfüllt sein:
  1. die nötigen inotify-tools müssen manuell installiert werden (LINK)
  2. das Startskript muss um den Parameter start erweitert werden (auch stop wird ausgewertet, sofern mal benötigt)
    /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh start
  • Es gibt eine spezielle Logdatei, welche die inotify-Ereignisse mitschreiben soll (die Datei inotify.log parallel in jedem Logverzeichnis).
  • Es werden alle aktiven Inputverzeichnisse überwacht. Gibt es an der Liste der Inputverzeichnisse eine Änderung, so muss mit dem obigen Aufruf ein Neustart initiiert werden.
  • Ein aktives Monitoring ist am pulsierenden grünen Icon auf der Startseite zu erkennen
Ich stelle das SPK zunächst mal parallel zum Testen als Prerelease zur Verfügung und bin auf euer Feedback gespannt:

Hier die beiden Downloads, wer sie manuell laden möchte:​

Viel Spaß damit

@tag @olli2 @koen @Ge-LA
 
Zuletzt bearbeitet:

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Ich versteh noch nicht ganz was ich dann damit machen kann? Bekomme ich eine message wenn die Dateien abgearbeitet sind?
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat