synOCR synOCR - GUI für OCRmyPDF

micky1067 · 31. Okt 2019

Ich habe eine Frage betreffend Nextcloud und synocr.
In ein einfaches Verzeichnis auf der Diskstation ist ohne Probleme zu speichern.
Ich möchte jedoch das ganze in ein Verzeichnis eines Benutzers in Nextcloud einlesen.
Das Verzeichnis ist jedoch durch besodnere Rechte von Nextcloud belegt, so dass man wohl nicht schreiben kann.
Möglich wäre vielleicht eine Webdav Verbindung. Ist das möglich ? Mit Angabe Cloud URL mit Anmeldenamen und Passwort und Auswahl des Verzeichnisses.

Warum ich das Frage. Files die man nicht über das Hochladen in Nextcloud gebracht hat, werden von der Volltextsuche ignoriert.

Danke..
Viele Grüße
micky1067

geimist · 31. Okt 2019

synOCR läuft ja mit dem User root. Von daher wundert es mich, wenn da nicht in dein Wunschverzeichnis geschrieben werden kann. Aber es kann natürlich sein, dass die Dateiänderung in Nextcloud nicht getriggert wird und daher das Dokument nicht indiziert wird.

Wenn dir WebDAV helfen sollte, könntest du natürlich in einem separaten synOCR-Verzeichnis arbeiten und mit einem eigenen Skript die fertigen Files via WebDAV nach Nextcloud verschieben.

micky1067 · 01. Nov 2019

Hallo @geimist,

ja verstehe schon das es mit root läuft. Er schreibt auch die Datei gemäß Log mit root:root. Nextcloud benötigt aber 33:33 (www-data:www-data).
Deshalb wird die Datei nicht angezeigt. Kann man da was machen, vielleicht in der GUI eine Auswahl zu treffen mit welcher uid / gid geschrieben werden soll ?
Wäre genial. Dann würde das nämlich funktionieren.

Das mit dem script wäre natürlich auch eine Idee. Einfach was in Output steht mit den richtigen rechten in die Cloud verschieben.
Danke für deine Hilfe... Tolles Programm. !!!!!

Grüße
micky1067

Rüben-Rudi · 02. Nov 2019

Guten Tag,

ich bin NAS "Neuling", habe die DS718+ seit nem knappen Jahr und sehr wenig (gar kein) Wissen von php, Unix, Skripten etc.

Gibt es ein Manual in dem ich nachlesen kann was und wie ich einrichten muß?

Ich würde gerne durchsuchbare PDFs für unsere FiBu erstellen .....
Ziel ist, die Rechnungen etc in ein Verzeichnis abzulegen, der MFP (Kyocera FS-C2126MFP+) kann Verzeichnisse ansprechen, dort ablegen und dann automatisiert der FiBu zu übergeben.
Es gibt eine Lösung vom Hersteller mit einem Fujitsu Scanner, meine Frau möchte aber keinen reinen Durchzugsscanner und noch nen Gerät auf dem Schreibtisch will sie auch nicht ...

Dank Euch

Bernd

TeXniXo · 02. Nov 2019

Das Tool hier ist eh perfekt dafür geeignet für dein Vorhaben. Ich scanne mit dem Smartphone alles ab und leg das in einem Verzeichnis je nach Profile ab, der Rest erledigt das hier erwähnte Tool!

Anleitungen, Downloadlink & Co findest du hier auf der ersten Seite, denke ich.

Rüben-Rudi · 02. Nov 2019

Danke für die schnelle Antwort ...

Wo muß ich die "Paktequelle" eintragen?
Wie bekomme ich die heruntergeladene *.spk Datei installiert?

Sorry für die dummen Fragen, mir fehlen die absoluten Grundlagen ....

Der Docker ocrmypdf läuft, stoppt aber nach kurzer Zeit.... da fehlt dann wahrscheinlich synOCR als "Steuerung"?

Dank euch

Bernd

reiki · 02. Nov 2019

Ich glaube, ich stand vor dem selben Problem/Denkfehler, als ich vor längerer Zeit das Tool installierte und nutzen wollte.

In der Tat ist synOCR die "Oberfläche". Der Docker startet und stoppt "automatisch", wenn du alles eingerichtet hast und (mind.) eine (z.B. gescannte) pdf-Datei im Input_Ordner vorliegt und du dann SynOCR "startest". Nach einigen Sekunden bis Minuten ist dann die durchsuchbare pdf-Datei im Output-Ordner zu finden. Liegen im Input-Ordner mehrere Dateien, werden diese mit einmaligem Start alle nacheinander bearbeitet.

Ich bin mit dem Tool sehr zufrieden und nutze es gelegentlich.

Im Paket-Zentrum kannst du manuell die "spk-Datei" installieren, wenn du sie "händisch" downgeloaded hast. Alternativ kannst du im Paketzentrum unter Einstellungen auch Paketquellen hinzufügen. Ich weiß gar nicht mehr wie ich das damals gemacht habe.

geimist · 02. Nov 2019

Rüben-Rudi schrieb:
… ich bin NAS "Neuling", habe die DS718+ seit nem knappen Jahr und sehr wenig (gar kein) Wissen von php, Unix, Skripten etc.…

Brauchst du nicht - dafür ist ja synOCR da

Wo muß ich die "Paketquelle" eintragen?
Wie bekomme ich die heruntergeladene *.spk Datei installiert?

Ich würde dir den Weg mit der Paketquelle im Paketzentrum empfehlen. Natürlich geht auch die manuelle Installation, aber so bekommst du keine automatischen Updates.

Der Docker ocrmypdf läuft, stoppt aber nach kurzer Zeit …

Darum musst du dich nicht kümmern. Wichtig ist lediglich, dass das Paket "Docker" installiert ist. Den Rest macht synOCR.
Und wie schon erwähnt: der Container OCRmyPDF läuft immer nur während des aktiven Verarbeiten von PDFs.

Viel Erfolg

geimist · 02. Nov 2019

micky1067 schrieb:
… Er schreibt auch die Datei gemäß Log mit root:root. Nextcloud benötigt aber 33:33 (www-data:www-data). …

Wenn du willst, dann guck dir mal die Zeile 324-326 (synOCR v0.15.2) in der Datei /usr/syno/synoman/webman/3rdparty/synOCR/synOCR.sh an. Du kannst mal zum Test die erst beiden Zeilen (chmod … / chown …) aktiveren und die 3. mit einer Raute deaktivieren.
Ich hatte da schonmal herumprobiert. Ich weiß nicht mehr genau den Grund, warum ich mich damals für cp --attributes-only -p … entschieden hatte. Es kommt halt auch immer darauf an, ob die Standardlinuxrechte verwendet werden, oder ACL.

Ich würde mich über eine Rückmeldung freuen

Sebastian99 · 03. Nov 2019

Ich habe synOCR gerade mit Begeisterung installiert und getestet, funktionierte auf Anhieb. Hatte erst die Befürchtung ich muss vorher die Container manuell konfigurieren aber das macht synOCR ja glücklicherweise ganz von selber, sofern Docker installiert ist.

Großes Kino!

Vorher habe ich OCR mit Acrobat am Computer gemacht. Ich habe mal die Ergebnisse stichprobenartig verglichen und festgestellt, dass synOCR mit den OCR Optionen "-srd -l deu" optisch deutlich bessere Ergebnisse liefert, aber die Dateien auch ein gutes Stück größer werden. Mir reicht die Qualität die Acrobat geliefert hat, daher die Frage ob jemand vielleicht schon mal OCR Optionen ausgetüftelt hat, mit denen die Ergebnisse qualitativ und von der Dateigröße her etwa im Bereich von Acrobat "Scan verbessern" mit folgenden Einstellungen liegen? Siehe Screenshot.

Edit: Gerade mal ein bisschen mit dem Argument --optimize experimentiert, aber ohne merklichen Effekt auf die Ausgabe. Oder gehört das nicht bei synOCR in "OCR Optionen"? Habe es dort mit "--optimize 2 -srd -l deu" und "-srd -l deu --optimize 2" probiert.

TeXniXo · 03. Nov 2019

Wenn du hier auf ca. Seite 5 oder so gehst, findest du vom User @peterhoffmann hier einige "Testreihen" zu den verfügbaren Optionen. Aber wo genau weiß ich nicht mehr - evtl. alle Pages auf einer Seite bringen u nach User "peterhoffmann" suchen lassen.

Sebastian99 · 03. Nov 2019

Hat bei mir bei einem ~20 MB großen Scan mit 32 Seiten leider keinen merklichen Effekt egal mit welcher Stufe ich optimiere, oder mache ich da was falsch?

Sebastian99 schrieb:
[...]Oder gehört das nicht bei synOCR in "OCR Optionen"? Habe es dort mit "--optimize 2 -srd -l deu" und "-srd -l deu --optimize 2" probiert.

geimist · 03. Nov 2019

Also Adobe ist da schon ungeschlagen (meine Beobachtung). Ich bin da aber auch nicht der PDF-/OCR-Poweruser.

Du kannst auch gern mal in der Dokumentation von OCRmyPDF stöbern - vielleicht kannst du ja auch noch einen guten Tipp geben …

Edit:
Wie ich gerade gesehen habe, kann man speziefisch mit --jbig2-lossy den jbig2-Encoder aktivieren (in Verbindung mit --optimize).
Ein gescanntes b/w-Dokument (332kB) war mit jbig2 (131kB) und ohne (151kB). Ob --optimize 2 oder 3 machte keinen Unterschied.

Rich (BBCode):

--jbig2-lossy --optimize 2

geimist · 04. Nov 2019

force schrieb:
Rotate pages
Bei mir werden die Seiten nicht gedreht, wenn sie auf dem Kopf sind. Ich habe es mit -rd versucht, aber auch ausgeschrieben mit --rotate-pages --deskew. …

Du kannst es nochmal mit --rotate-pages-threshold versuchen, aber wie schon geschrieben, dient die Funktion eigentlich zur Unterscheidung von portrait und landscape.

Hoshi1 · 04. Nov 2019

ClearEyetemAA55 schrieb:
Kämpfe auch gerade mit der Einrichtung, und ebenfalls eher mit Docker bzw. jbarlow83/ocrmypdf:latest
"Docker-Container: jbarlow83-ocrmypdf1 wurde unerwartet gestoppt."
Protokoll --> ocrmypdf: error: the following arguments are required: input_pdf_or_image, output_pdf

Synology DSM 6.1.23739
Docker über Paket-Zentrum auf SSD=Volume1
Gemeinsamer Ordner "docker" ebenfalls auf Volume1
(Hier schon die ersten Fragen: Zugriffsrechte müssen für den Ordner Docker welche sein? Administrator? Und für die in SynOCR hinterlegten Quellverzeichnis, Zielverzeichnis, Backup-Verzeichnis, LOG-Dateien? Welche Berechtigungen für den Zugriff auf beispielsweise /volume2/homes/USER/ScanOCR/_INPUT ?)

Weitere aktive Container: Portainer, Watchtower

EDIT
SynOCR dann ebenfalls über Paket-Zentrum auf SSD=Volume1
Status / Statistik --> Offene Aufgaben:
Dateien zu bearbeiten: 1
Gesamt seit 2019-09-07 PDF/Pages: 0/0

Dank schonmal

Ich habe heute alles nötige installiert und synOCR konfiguriert Docker bricht ein paar Sekunde nach dem Start ab und ich bekommen nun auch folgenden Fehler:
ocrmypdf: error: the following arguments are required: input_pdf_or_image, output_pdf

Was hat das zu bedeuten?

Ich habe alle nötigen Ordner angelegt:
Quell: /volume2/Archiv/Scan/papierlosesBuero/Input usw. (Ja, volume2 ist korrekt

)

Müssen im Docker irgendwelche Ports freigegeben werden?
Was ist denn mit "input_pdf_or_image, output_pdf" überhaupt gemeint? Ich kann in synOCR nichts dazu einstellen.

geimist · 04. Nov 2019

Das einzige, was synOCR bei der Installation / Einrichtung nicht macht, ist die Installation des Synology Pakets "Docker". Alles andere ist in synOCR einzutragen. Du brauchst dich nicht um Docker zu kümmern - der Container wird nur temporär bei der Verarbeitung von PDFs erstellt und braucht nicht permanent zu laufen.

Hoshi1 · 04. Nov 2019

Oh perfekt, danke @geimist,
das habe ich nicht verstanden. Testweise 2 Dokumente überarbeiten lassen und es klappt perfekt.
Das geht sogar besser als es mein Drucker/Scanner mit OCR selbst kann.

micky1067 · 06. Nov 2019

Hallo @geimist,

so.. möchte meine Lösung präsentieren.
Kopie vom Ausgangsverzeichnis in Nextcloud !
Vielleicht auch nützlich für andere die Nextcloud und SynOCR verwenden.

Ich habe ein Script erstellt und führe das alle 10 Minuten über den Aufgabenplaner aus.
Im script sind folgende Befehle:

Rich (BBCode):

#!/bin/bash
cd /volume1/DMS-Scanner/Ausgang/
chown -R 33:33 .
find /volume1/DMS-Scanner/Ausgang/ -name '*' -type f -exec curl -u user:passwort -T {} https://nc-xxxxx.ddnss.de/remote.php/webdav/DMS-Eingangsdokumente/ \;
rm *

Ist nicht schwer zu verstehen. Erst in das Verzeichnis gehen in dem die Dateien von SynOCR liegen.
Den Benutzer für alle Dateien ändern auf 33:33 damit das kopieren in die Cloud funtioniert.
Dann durch den Befehl das Verzeichnis finden und alle Dateien auswählen und an die Cloud senden.
Hier den Benutzernamen und das Passowrt der Cloud verwenden.
Zu guter letzt die Dateien aus dem SynoCR Ausgangsverzeichnis löschen.

Danke nochmals für den Tip.

Viele Grüße
micky1067

geimist · 06. Nov 2019

Schön, dass du eine Lösung gefunden hast

Falls du Lust und Muse hast, würde mich schon interessieren, ob mein Lösungsvorschlag auch geholfen hätte. Das könnte ja das Problem generell beheben.

P.S.: vielleicht kannst du dein Skript als Codeblock posten. Das macht es für andere User beim Kopieren einfacher (der Pfad wird z.B. nicht korrekt kopiert)

micky1067 · 06. Nov 2019

Hallo Stephan,

wenn ich zeit habe werde ich das mal in Angriff nehmen. Den Code in einen Codeblock gesetzt habe ich.. !

Gruß
Michael

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Kaffeautomat