synOCR synOCR - GUI für OCRmyPDF

claus_hipp · 11. Jan. 2022

Hallo zusammen,

danke für die schnellen Rückmeldungen!
Habe aktuell noch die Version: 1.1.902

Mal eine blöde Frage: wie update ich das am Besten? Bin noch etwas grün hinter den Ohren was die Synology angeht

Ist das so korrekt:
- Datei herunterladen von: https://geimist.eu/synOCR/synOCR_DSM7_PRERELEASE_(2022-01-10_13-08).spk
- Paket-Zentrum > Manuelle Installation > Datei auswählen --> fertig?
Muss ich vorab die Konfiguration sichern?
Weiß das System dass ich ein Update vornehme oder habe ich danach zwei Versionen installiert?

Das "recursive_inputdir_workflow.sh" Skript schaue ich mir auf jeden Fall an!! Auch dafür ein dickes Dankeschön!

BG

claus_hipp · 11. Jan. 2022

Ziehe die Frage zurück - hab es einfach mal ausprobiert -> für alle die irgendwann vor der gleichen Frage stehen:
--> Konfiguration wird übernommen
--> Das System updated die bestehende Version

claus_hipp · 11. Jan. 2022

Hallo geimist,

habe noch einen kleinen Bug gefunden, der sicher auf die ToDo Liste möchte und bestimmt/hoffentlich schnell zu beheben ist.

§filecounttotal (Dateizähler (gesamt))
--> Hier scheint der Counter nicht erhöht zu werden, wenn mehrere Dateien gleichzeitig bearbeitet werden.
Ich habe ca. 16 Dateien in das OCR Verzeichnis mit einem Schlag abgelegt und die Variable war immer 103 bei jeder einzelnen Datei.

geimist · 11. Jan. 2022

Na so was aber auch.

Ich guck es mir an. Vielen Dank

Edit: hab den Schuldigen schon gefunden
(muss aber schon lange so gewesen sein

)

jhess · 11. Jan. 2022

Ein gutes neues Jahr allerseits!

Mittlerweile tut SynOCR seinen Dienst, die Tags und Kategorien müssen noch verbessert werden, aber sonst läuft alles wie erwünscht. Prima!

Ein merkwürdiges Problem habe ich aber dann doch:

Anscheinend gibt die Synology Station nach jedem OCR-Vorgang einen Piepton ab!

Ist das so gewollt? Lässt es sich abschalten?

Festplatten sind alle ok, Lüfter auch und wenn SynOCR nicht arbeitet piepst auch nichts... 8-/

Ich benutze das aktuelle Build DSM7 vom 2. Januar...

Irgendeine Idee?

Mit besten Grüßen,
Jochen

Tommes · 12. Jan. 2022

Hi!

Schau in synOCR mal unter Konfiguration > DSM-Benachrichtigung und sonstige Einstellungen > Systembenachrichtigung (Piep) > und wähle hier „aus“. Anschließend nicht vergessen, die Änderungen zu speichern.

Tommes

jhess · 12. Jan. 2022

Hi Tommes!

Ok, das war superblind von mir... hatte ich schlicht übersehen!

Ganz herzlichen Dank!

Cheers,
Jochen

Score · 12. Jan. 2022

Hallihallo,

erstmal ein großes herzliches Dankeschön an @geimist für das implementieren von OCRmyPDF! Mit Docker hätte ich das allein niemals zum laufen bekommen auf meiner DS918+.

Eine Frage habe ich an alle die SYNOCR Ahnung haben bzw. es benutzen. Ich benutze über den Aufgabenplaner einen Aktualisierungsintervall von 1min und scanne meine PDF´s in eine Ordnerstruktur wo jeder Mitarbeiter einen Ordner hat, aber nur der Admin Zugriff. Aus diesen Ordnern geht es dann in das jeweilige Home-Verzeichnis des Mitarbeiters mit SYNOCR (dafür hat jeder ein extra eingerichtetes Profil). Sowei so gut, aber leider gab es etwas kritik, dass das Scannen so lange dauert. 1,5-2 min bis die Datei im Verzeichnis ist. Gibt es eine möglichkeit die Triggerzeit zu verringern ohne, dass das System sich verstolpert oder gibt es evtl. die möglichkeit SYNOCR auf eine neue Datei im Verzeichnis triggern zu lassen?

Vorab vielen Dank für alle Antworten zu meiner Frage

geimist · 12. Jan. 2022

Herzlich willkommen im Forum, @Score

Für jedes PDF wird ein temporärer OCRmyPDF-Container erstellt. Damit es keine Konflikte gibt, werden keine parallelen Instanzen erlaubt. Selbst wenn es eine Ordnerüberwachung gäbe, könnte es dennoch ~1 min. dauern. Ich sehe da wenig Optimierungspotential (ja, eine Ordnerüberwachung wäre nett - vielleicht kommt die auch mal). synOCR braucht halt einfach etwas Zeit. Im aktuell negativsten Fall betrüge das Einsparpotential 1min und aktuell besten Fall gibt es gar kein Einsparpotential.

Fink · 13. Jan. 2022

Hallo,
ich bin auf der Suche nach einem Tool welches für meine gescannten PDFs eine Texterkennung durchführt, da mein Scanner es nicht kann. Der Scanner kann auch nicht direkt die Datei im Netzwerk speichern, weshalb mein Workflow sehr manuell ist (Datei mit Notebook Einscannen und auf der DS unter meinen Dokumenten einsortieren).
Nun bin ich auf dieses Paket gestoßen, frage mich aber, ob es in meinem Fall nicht mit Kanonen auf Spatzen schießen ist. Kennt jemand eventuell ein anderes gutes Freeware Tool für Windows (PDF Datei rein, PDF Datei raus)?
Bitte nicht falsch verstehen, aber ich bin auch immer etwas vorsichtig mit der Installation von Paketen aus nicht offizieller Quelle auf meinem produktiven NAS. Vor allem wenn ich noch nicht ganz durchschaut habe wie das Paket funktioniert und welche Prozesse es installiert.
Gibt es eventuell irgendwo ein kurzes manual über synOCR und wie es intern unter DSM 7 tickt (ohne den ganzen Thread zu lesen)? Ich habe gelesen, dass es unter DSM 7 noch einige Workarounds notwendig sind?!

Lg
Finke

gunfran · 13. Jan. 2022

@geimist
Eine Frage
In #2197 hast du ja ein neues Pre-Release gepostet mit interessanten Neuigkeiten.
Beim schauen auf deine Verzeichnisliste hat mich aber auch folgende Datei angelacht "synOCR_DSM7_v1.2.0.spk" vom 12.01.

Ich frage mich ob ich der Pre-Release nun noch nutzen sollte, ober ob ich noch aufs Release 1.2 warten sollte?
Wenn du noch auf jeden Fall Nutzer für das Pre-Release benötigst ist das natürlich auch ein Grund dies zu nehmen.

geimist · 13. Jan. 2022

Fink schrieb:
Nun bin ich auf dieses Paket gestoßen, frage mich aber, ob es in meinem Fall nicht mit Kanonen auf Spatzen schießen ist. Kennt jemand eventuell ein anderes gutes Freeware Tool für Windows (PDF Datei rein, PDF Datei raus)?

Warum denkst du das? Es macht genau das, was dein Ziel ist: OCR. Natürlich kannst du auch unendlich viel Zeit in irgendwelche zusätzlichen Regeln investieren, nach welchen deine PDFs sortiert und umbenannt werden sollen, aber das musst du ja nicht. Einen Freewaretipp für Windows habe ich leider nicht für dich - da habe ich zu wenig Berührungspunkte mit Windows.

Bitte nicht falsch verstehen, aber ich bin auch immer etwas vorsichtig mit der Installation von Paketen aus nicht offizieller Quelle auf meinem produktiven NAS. Vor allem wenn ich noch nicht ganz durchschaut habe wie das Paket funktioniert und welche Prozesse es installiert.

Das ist auch gut und richtig so

(INFO: synOCR gibt es jetzt 3 Jahre und der Quellcode ist für jeden einsehbar)

Zu deiner Frage:
Bei der Installation werden Programmkomponenten an zwei Stellen im DSM gespeichert: Zum einen ein paar Paketeinstellungen, damit der DSM das Paket kennt und weiß, wie er es handhaben muss. Zum anderen gibt es den eigentlichen Programmpfad, wo alle Anwendungsdaten von synOCR liegen. Laufende Hintergrundprozesse gibt es von synOCR aktuell nicht und auch sonst keine Daten, die irgendwo auf deiner Diskstation verteilt werden. Nach einer Deinstallation über das Paketzentrum ist auch alles wieder weg. Von dir selbst muss noch das Paket Docker installiert werden. Darin wird dann das eigentliche OCR-Image ocrmypdf geladen und temporär gestartet, sofern ein PDF zu verarbeiten ist. Wenn es nichts zu tun gibt, läuft auch nichts.

Fink schrieb:
Ich habe gelesen, dass es unter DSM 7 noch einige Workarounds notwendig sind?!

Das Startskript (bei jeder Ausführung von diesem, wird u.a. nach neuen PDFs gesucht), muss über den DSM-Aufgabenplaner angelegt / gestartet werden (Anleitung findest du auf der Hilfe-Seite von synOCR). Das wird auch nach aktuellem Stand so bleiben.

geimist · 13. Jan. 2022

gunfran schrieb:
Ich frage mich ob ich der Pre-Release nun noch nutzen sollte, ober ob ich noch aufs Release 1.2 warten sollte?

Die Pakete unterscheiden sich so gut wie nicht. Falls ich es aufgrund eines gemeldeten Fehlers doch nochmal neu bauen sollte, würde dir in dem Fall später für das 'echte Release' kein Update angeboten werden (Versionzahl wäre ja mit deiner installierten identisch).

Fink · 13. Jan. 2022

Hi @geimist,

vielen Dank für deine Antwort. Dann werde ich es wohl ausprobieren.
Kannst du mir vielleicht noch die genannte Hilfeseite linken, wo ich die erwähnte Anleitung finde?
Ist die Version für DSM 7 noch in Beta? Macht es daher Sinn noch einige Tage zu warten, bis du das finale Release 1.2 veröffentlichst?

geimist · 13. Jan. 2022

Bisher war auch die DSM7 Version nicht mehr wirklich BETA. Der Grund lag darin, dass nur so ein SPK für unterschiedliche DSM-Versionen (DSM6 & DSM7) gleichzeitig auf cphub.net angeboten werden konnten. Das Ganze wird sich mit diesem Release drehen: dann wird die DSM6-Version nur noch als BETA weitergeführt.

Die Hilfe findest du in synOCR nach dem Installieren.

gunfran · 13. Jan. 2022

geimist schrieb:
Die Pakete unterscheiden sich so gut wie nicht. Falls ich es aufgrund eines gemeldeten Fehlers doch nochmal neu bauen sollte, würde dir in dem Fall später für das 'echte Release' kein Update angeboten werden (Versionzahl wäre ja mit deiner installierten identisch).

Alles klar.
Ich denke dann werde ich noch das Pre-Release installieren und warte auf deine offizielle Nachricht das du die 1.2. raushaust.
Bin schon in Vorfreude.

Gthorsten · 13. Jan. 2022

Mal eine Frage. Wie oft lässt ihr eigentlich das Skript per planer starten? Brauche das ja nur privat und es muss nicht jede Minute laufen.
Am besten wäre natürlich ein on demand. Also der Scanner schiebt es aufs Netzwerk und dann startet das Skript. Habe da aber noch nichts gefunden. Es immer manuell zu starten ist aber auch blöd. Bin mir nur unsicher wegen des intervals. Zu oft, schadet das der Platte? Stromverbrauch zu hoch?

geimist · 13. Jan. 2022

Gthorsten schrieb:
Zu oft, schadet das der Platte? Stromverbrauch zu hoch?

Da passiert so gut wie nichts, sofern es nichts zu tun gibt.

Mit drei aktiven Profilen dauert der Aufruf bei mir ~300ms …
Entsprechend gering ist die Auslastung der CPU oder HDD.

Score · 13. Jan. 2022

Gthorsten schrieb:
Mal eine Frage. Wie oft lässt ihr eigentlich das Skript per planer starten? Brauche das ja nur privat und es muss nicht jede Minute laufen.
Am besten wäre natürlich ein on demand. Also der Scanner schiebt es aufs Netzwerk und dann startet das Skript. Habe da aber noch nichts gefunden. Es immer manuell zu starten ist aber auch blöd. Bin mir nur unsicher wegen des intervals. Zu oft, schadet das der Platte? Stromverbrauch zu hoch?

geimist schrieb:
Herzlich willkommen im Forum, @Score

Für jedes PDF wird ein temporärer OCRmyPDF-Container erstellt. Damit es keine Konflikte gibt, werden keine parallelen Instanzen erlaubt. Selbst wenn es eine Ordnerüberwachung gäbe, könnte es dennoch ~1 min. dauern. Ich sehe da wenig Optimierungspotential (ja, eine Ordnerüberwachung wäre nett - vielleicht kommt die auch mal). synOCR braucht halt einfach etwas Zeit. Im aktuell negativsten Fall betrüge das Einsparpotential 1min und aktuell besten Fall gibt es gar kein Einsparpotential.

Danke für deine schnelle Antwort.

Ich habe halt gedacht, dass der Intervall der Flaschenhals ist im Bezug auf die Geschwindigkeit.
Habe heute in der Dokumentation von OCRmyPDF die Erklärung zu Watched folders with Docker gefunden. Die wird @geimist bestimmt auch schon öfter über den Weg gelaufen sein, aber vllt auch nicht und es forciert den Prozess ein wenig.
Ich würde mich extrem über diese Funktion freuen.

Ist es eigentlich irgendwie möglich die Geschwindigkeit der Prozesse an sich zu optimieren? Hier habe ich unter Performance etwas gefunden. Allerdings will wahrscheinlich niemand (inkl. Mir) Qualitätsabstriche machen vllt. für 5 Sekunden. Geht das evtl. mit Hardware oder ist hier der Prozessor die Handbremse?

@geimist gibt es eigentlich ein Konto worüber du deine Pizza bezahlst, oder so?

Schönen Abend euch Freunden der eingelesenen PDF‘s

geimist · 13. Jan. 2022

Score schrieb:
Ich habe halt gedacht, dass der Intervall der Flaschenhals ist im Bezug auf die Geschwindigkeit.

Wie lange deine DS benötigt, kannst du ja mit einem manuellen Start prüfen. Darüber hinaus steht die Verarbeitungszeit auch im Log (ganz unten). Ein mehrseitiges Dokument dauert auf meiner DS920+ auch schonmal eine Minute. Ein ganz einfaches ist auch schon nach 20s fertig. OCRmyPDF hat halt wirklich etwas zu tun (je nach verwendeten Parametern mehr oder weniger).

Habe heute in der Dokumentation von OCRmyPDF die Erklärung zu Watched folders with Docker gefunden.

Für den einfachsten Fall mag das genügen. Aber synOCR bietet ja z.B. über die Profile und Suchkriterien im Inputordner die Möglichkeit, dass unterschiedliche User einen gemeinsamen Inputordner nutzen. Überhaupt müsste ja für jeden weiteren Inputordner ein weiterer Dockercontainer laufen. Hier sähe ich mehr Einschränkungen als Nutzen.
Auch müsste ja die Weiterverarbeitung mit synOCR getriggert werden (umbenennen / einsortieren)

Wenn das Thema umgesetzt werden würde, schwebt mir eine Lösung über inotify vor. Dadurch würde das Ganze als eine Art Dienst laufen. Das bedeutet zum einen einiges an Arbeit und zum anderen fehlt mir damit die Erfahrung, was zusätzlich Zeit und Aufwand bedeutet. Wie gesagt: vielleicht kommt das mal, aber nicht in der nächsten Zeit.

Hier habe ich unter Performance etwas gefunden.

Das sind übrigens Parameter, die jeder User selbst in seinem Profil nutzen und anpassen kann ('OCR Optionen')

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat