synOCR synOCR - GUI für OCRmyPDF

claus_hipp

Benutzer
Mitglied seit
11. Jan 2022
Beiträge
11
Punkte für Reaktionen
4
Punkte
3
Hallo zusammen,

danke für die schnellen Rückmeldungen!
Habe aktuell noch die Version: 1.1.902

Mal eine blöde Frage: wie update ich das am Besten? Bin noch etwas grün hinter den Ohren was die Synology angeht :(
Ist das so korrekt:
- Datei herunterladen von: https://geimist.eu/synOCR/synOCR_DSM7_PRERELEASE_(2022-01-10_13-08).spk
- Paket-Zentrum > Manuelle Installation > Datei auswählen --> fertig?
Muss ich vorab die Konfiguration sichern?
Weiß das System dass ich ein Update vornehme oder habe ich danach zwei Versionen installiert?

Das "recursive_inputdir_workflow.sh" Skript schaue ich mir auf jeden Fall an!! Auch dafür ein dickes Dankeschön!


BG
 

claus_hipp

Benutzer
Mitglied seit
11. Jan 2022
Beiträge
11
Punkte für Reaktionen
4
Punkte
3
Ziehe die Frage zurück - hab es einfach mal ausprobiert -> für alle die irgendwann vor der gleichen Frage stehen:
--> Konfiguration wird übernommen
--> Das System updated die bestehende Version
 

claus_hipp

Benutzer
Mitglied seit
11. Jan 2022
Beiträge
11
Punkte für Reaktionen
4
Punkte
3
Hallo geimist,

habe noch einen kleinen Bug gefunden, der sicher auf die ToDo Liste möchte und bestimmt/hoffentlich schnell zu beheben ist.

§filecounttotal (Dateizähler (gesamt))
--> Hier scheint der Counter nicht erhöht zu werden, wenn mehrere Dateien gleichzeitig bearbeitet werden.
Ich habe ca. 16 Dateien in das OCR Verzeichnis mit einem Schlag abgelegt und die Variable war immer 103 bei jeder einzelnen Datei.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Na so was aber auch.

Ich guck es mir an. Vielen Dank 😊

Edit: hab den Schuldigen schon gefunden
(muss aber schon lange so gewesen sein :rolleyes:)
 
Zuletzt bearbeitet:

jhess

Benutzer
Mitglied seit
14. Apr 2016
Beiträge
41
Punkte für Reaktionen
5
Punkte
8
Ein gutes neues Jahr allerseits!

Mittlerweile tut SynOCR seinen Dienst, die Tags und Kategorien müssen noch verbessert werden, aber sonst läuft alles wie erwünscht. Prima!

Ein merkwürdiges Problem habe ich aber dann doch:

Anscheinend gibt die Synology Station nach jedem OCR-Vorgang einen Piepton ab!

Ist das so gewollt? Lässt es sich abschalten?

Festplatten sind alle ok, Lüfter auch und wenn SynOCR nicht arbeitet piepst auch nichts... 8-/

Ich benutze das aktuelle Build DSM7 vom 2. Januar...

Irgendeine Idee?


Mit besten Grüßen,
Jochen
 

Tommes

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
26. Okt 2009
Beiträge
9.736
Punkte für Reaktionen
1.642
Punkte
314
Hi!

Schau in synOCR mal unter Konfiguration > DSM-Benachrichtigung und sonstige Einstellungen > Systembenachrichtigung (Piep) > und wähle hier „aus“. Anschließend nicht vergessen, die Änderungen zu speichern.

Tommes
 
Zuletzt bearbeitet:

jhess

Benutzer
Mitglied seit
14. Apr 2016
Beiträge
41
Punkte für Reaktionen
5
Punkte
8
Hi Tommes!


Ok, das war superblind von mir... hatte ich schlicht übersehen!

Ganz herzlichen Dank!


Cheers,
Jochen
 

Score

Benutzer
Mitglied seit
12. Jan 2022
Beiträge
2
Punkte für Reaktionen
0
Punkte
1
Hallihallo,

erstmal ein großes herzliches Dankeschön an @geimist für das implementieren von OCRmyPDF! Mit Docker hätte ich das allein niemals zum laufen bekommen auf meiner DS918+.

Eine Frage habe ich an alle die SYNOCR Ahnung haben bzw. es benutzen. Ich benutze über den Aufgabenplaner einen Aktualisierungsintervall von 1min und scanne meine PDF´s in eine Ordnerstruktur wo jeder Mitarbeiter einen Ordner hat, aber nur der Admin Zugriff. Aus diesen Ordnern geht es dann in das jeweilige Home-Verzeichnis des Mitarbeiters mit SYNOCR (dafür hat jeder ein extra eingerichtetes Profil). Sowei so gut, aber leider gab es etwas kritik, dass das Scannen so lange dauert. 1,5-2 min bis die Datei im Verzeichnis ist. Gibt es eine möglichkeit die Triggerzeit zu verringern ohne, dass das System sich verstolpert oder gibt es evtl. die möglichkeit SYNOCR auf eine neue Datei im Verzeichnis triggern zu lassen?

Vorab vielen Dank für alle Antworten zu meiner Frage
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Herzlich willkommen im Forum, @Score :)

Für jedes PDF wird ein temporärer OCRmyPDF-Container erstellt. Damit es keine Konflikte gibt, werden keine parallelen Instanzen erlaubt. Selbst wenn es eine Ordnerüberwachung gäbe, könnte es dennoch ~1 min. dauern. Ich sehe da wenig Optimierungspotential (ja, eine Ordnerüberwachung wäre nett - vielleicht kommt die auch mal). synOCR braucht halt einfach etwas Zeit. Im aktuell negativsten Fall betrüge das Einsparpotential 1min und aktuell besten Fall gibt es gar kein Einsparpotential.
 
Zuletzt bearbeitet:

Fink

Benutzer
Mitglied seit
11. Dez 2010
Beiträge
92
Punkte für Reaktionen
5
Punkte
8
Hallo,
ich bin auf der Suche nach einem Tool welches für meine gescannten PDFs eine Texterkennung durchführt, da mein Scanner es nicht kann. Der Scanner kann auch nicht direkt die Datei im Netzwerk speichern, weshalb mein Workflow sehr manuell ist (Datei mit Notebook Einscannen und auf der DS unter meinen Dokumenten einsortieren).
Nun bin ich auf dieses Paket gestoßen, frage mich aber, ob es in meinem Fall nicht mit Kanonen auf Spatzen schießen ist. Kennt jemand eventuell ein anderes gutes Freeware Tool für Windows (PDF Datei rein, PDF Datei raus)?
Bitte nicht falsch verstehen, aber ich bin auch immer etwas vorsichtig mit der Installation von Paketen aus nicht offizieller Quelle auf meinem produktiven NAS. Vor allem wenn ich noch nicht ganz durchschaut habe wie das Paket funktioniert und welche Prozesse es installiert.
Gibt es eventuell irgendwo ein kurzes manual über synOCR und wie es intern unter DSM 7 tickt (ohne den ganzen Thread zu lesen)? Ich habe gelesen, dass es unter DSM 7 noch einige Workarounds notwendig sind?!

Lg
Finke
 

gunfran

Benutzer
Mitglied seit
25. Nov 2014
Beiträge
31
Punkte für Reaktionen
17
Punkte
58
@geimist
Eine Frage
In #2197 hast du ja ein neues Pre-Release gepostet mit interessanten Neuigkeiten.
Beim schauen auf deine Verzeichnisliste hat mich aber auch folgende Datei angelacht "synOCR_DSM7_v1.2.0.spk" vom 12.01.

Ich frage mich ob ich der Pre-Release nun noch nutzen sollte, ober ob ich noch aufs Release 1.2 warten sollte?
Wenn du noch auf jeden Fall Nutzer für das Pre-Release benötigst ist das natürlich auch ein Grund dies zu nehmen.
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Nun bin ich auf dieses Paket gestoßen, frage mich aber, ob es in meinem Fall nicht mit Kanonen auf Spatzen schießen ist. Kennt jemand eventuell ein anderes gutes Freeware Tool für Windows (PDF Datei rein, PDF Datei raus)?
Warum denkst du das? Es macht genau das, was dein Ziel ist: OCR. Natürlich kannst du auch unendlich viel Zeit in irgendwelche zusätzlichen Regeln investieren, nach welchen deine PDFs sortiert und umbenannt werden sollen, aber das musst du ja nicht. Einen Freewaretipp für Windows habe ich leider nicht für dich - da habe ich zu wenig Berührungspunkte mit Windows.

Bitte nicht falsch verstehen, aber ich bin auch immer etwas vorsichtig mit der Installation von Paketen aus nicht offizieller Quelle auf meinem produktiven NAS. Vor allem wenn ich noch nicht ganz durchschaut habe wie das Paket funktioniert und welche Prozesse es installiert.
Das ist auch gut und richtig so (y)
(INFO: synOCR gibt es jetzt 3 Jahre und der Quellcode ist für jeden einsehbar)

Zu deiner Frage:
Bei der Installation werden Programmkomponenten an zwei Stellen im DSM gespeichert: Zum einen ein paar Paketeinstellungen, damit der DSM das Paket kennt und weiß, wie er es handhaben muss. Zum anderen gibt es den eigentlichen Programmpfad, wo alle Anwendungsdaten von synOCR liegen. Laufende Hintergrundprozesse gibt es von synOCR aktuell nicht und auch sonst keine Daten, die irgendwo auf deiner Diskstation verteilt werden. Nach einer Deinstallation über das Paketzentrum ist auch alles wieder weg. Von dir selbst muss noch das Paket Docker installiert werden. Darin wird dann das eigentliche OCR-Image ocrmypdf geladen und temporär gestartet, sofern ein PDF zu verarbeiten ist. Wenn es nichts zu tun gibt, läuft auch nichts.

Ich habe gelesen, dass es unter DSM 7 noch einige Workarounds notwendig sind?!
Das Startskript (bei jeder Ausführung von diesem, wird u.a. nach neuen PDFs gesucht), muss über den DSM-Aufgabenplaner angelegt / gestartet werden (Anleitung findest du auf der Hilfe-Seite von synOCR). Das wird auch nach aktuellem Stand so bleiben.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Ich frage mich ob ich der Pre-Release nun noch nutzen sollte, ober ob ich noch aufs Release 1.2 warten sollte?
Die Pakete unterscheiden sich so gut wie nicht. Falls ich es aufgrund eines gemeldeten Fehlers doch nochmal neu bauen sollte, würde dir in dem Fall später für das 'echte Release' kein Update angeboten werden (Versionzahl wäre ja mit deiner installierten identisch).
 

Fink

Benutzer
Mitglied seit
11. Dez 2010
Beiträge
92
Punkte für Reaktionen
5
Punkte
8
Hi @geimist,

vielen Dank für deine Antwort. Dann werde ich es wohl ausprobieren.
Kannst du mir vielleicht noch die genannte Hilfeseite linken, wo ich die erwähnte Anleitung finde?
Ist die Version für DSM 7 noch in Beta? Macht es daher Sinn noch einige Tage zu warten, bis du das finale Release 1.2 veröffentlichst?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Bisher war auch die DSM7 Version nicht mehr wirklich BETA. Der Grund lag darin, dass nur so ein SPK für unterschiedliche DSM-Versionen (DSM6 & DSM7) gleichzeitig auf cphub.net angeboten werden konnten. Das Ganze wird sich mit diesem Release drehen: dann wird die DSM6-Version nur noch als BETA weitergeführt.

Die Hilfe findest du in synOCR nach dem Installieren.
 
  • Like
Reaktionen: Fink

gunfran

Benutzer
Mitglied seit
25. Nov 2014
Beiträge
31
Punkte für Reaktionen
17
Punkte
58
Die Pakete unterscheiden sich so gut wie nicht. Falls ich es aufgrund eines gemeldeten Fehlers doch nochmal neu bauen sollte, würde dir in dem Fall später für das 'echte Release' kein Update angeboten werden (Versionzahl wäre ja mit deiner installierten identisch).
Alles klar.
Ich denke dann werde ich noch das Pre-Release installieren und warte auf deine offizielle Nachricht das du die 1.2. raushaust.
Bin schon in Vorfreude. :)
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Mal eine Frage. Wie oft lässt ihr eigentlich das Skript per planer starten? Brauche das ja nur privat und es muss nicht jede Minute laufen.
Am besten wäre natürlich ein on demand. Also der Scanner schiebt es aufs Netzwerk und dann startet das Skript. Habe da aber noch nichts gefunden. Es immer manuell zu starten ist aber auch blöd. Bin mir nur unsicher wegen des intervals. Zu oft, schadet das der Platte? Stromverbrauch zu hoch?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Zu oft, schadet das der Platte? Stromverbrauch zu hoch?
Da passiert so gut wie nichts, sofern es nichts zu tun gibt.

Mit drei aktiven Profilen dauert der Aufruf bei mir ~300ms …
Entsprechend gering ist die Auslastung der CPU oder HDD.
 
  • Like
Reaktionen: Gthorsten

Score

Benutzer
Mitglied seit
12. Jan 2022
Beiträge
2
Punkte für Reaktionen
0
Punkte
1
Mal eine Frage. Wie oft lässt ihr eigentlich das Skript per planer starten? Brauche das ja nur privat und es muss nicht jede Minute laufen.
Am besten wäre natürlich ein on demand. Also der Scanner schiebt es aufs Netzwerk und dann startet das Skript. Habe da aber noch nichts gefunden. Es immer manuell zu starten ist aber auch blöd. Bin mir nur unsicher wegen des intervals. Zu oft, schadet das der Platte? Stromverbrauch zu hoch?
Herzlich willkommen im Forum, @Score :)

Für jedes PDF wird ein temporärer OCRmyPDF-Container erstellt. Damit es keine Konflikte gibt, werden keine parallelen Instanzen erlaubt. Selbst wenn es eine Ordnerüberwachung gäbe, könnte es dennoch ~1 min. dauern. Ich sehe da wenig Optimierungspotential (ja, eine Ordnerüberwachung wäre nett - vielleicht kommt die auch mal). synOCR braucht halt einfach etwas Zeit. Im aktuell negativsten Fall betrüge das Einsparpotential 1min und aktuell besten Fall gibt es gar kein Einsparpotential.

Danke für deine schnelle Antwort.

Ich habe halt gedacht, dass der Intervall der Flaschenhals ist im Bezug auf die Geschwindigkeit.
Habe heute in der Dokumentation von OCRmyPDF die Erklärung zu Watched folders with Docker gefunden. Die wird @geimist bestimmt auch schon öfter über den Weg gelaufen sein, aber vllt auch nicht und es forciert den Prozess ein wenig.
Ich würde mich extrem über diese Funktion freuen.

Ist es eigentlich irgendwie möglich die Geschwindigkeit der Prozesse an sich zu optimieren? Hier habe ich unter Performance etwas gefunden. Allerdings will wahrscheinlich niemand (inkl. Mir) Qualitätsabstriche machen vllt. für 5 Sekunden. Geht das evtl. mit Hardware oder ist hier der Prozessor die Handbremse?

@geimist gibt es eigentlich ein Konto worüber du deine Pizza bezahlst, oder so?

Schönen Abend euch Freunden der eingelesenen PDF‘s
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Ich habe halt gedacht, dass der Intervall der Flaschenhals ist im Bezug auf die Geschwindigkeit.
Wie lange deine DS benötigt, kannst du ja mit einem manuellen Start prüfen. Darüber hinaus steht die Verarbeitungszeit auch im Log (ganz unten). Ein mehrseitiges Dokument dauert auf meiner DS920+ auch schonmal eine Minute. Ein ganz einfaches ist auch schon nach 20s fertig. OCRmyPDF hat halt wirklich etwas zu tun (je nach verwendeten Parametern mehr oder weniger).

Habe heute in der Dokumentation von OCRmyPDF die Erklärung zu Watched folders with Docker gefunden.
Für den einfachsten Fall mag das genügen. Aber synOCR bietet ja z.B. über die Profile und Suchkriterien im Inputordner die Möglichkeit, dass unterschiedliche User einen gemeinsamen Inputordner nutzen. Überhaupt müsste ja für jeden weiteren Inputordner ein weiterer Dockercontainer laufen. Hier sähe ich mehr Einschränkungen als Nutzen.
Auch müsste ja die Weiterverarbeitung mit synOCR getriggert werden (umbenennen / einsortieren)

Wenn das Thema umgesetzt werden würde, schwebt mir eine Lösung über inotify vor. Dadurch würde das Ganze als eine Art Dienst laufen. Das bedeutet zum einen einiges an Arbeit und zum anderen fehlt mir damit die Erfahrung, was zusätzlich Zeit und Aufwand bedeutet. Wie gesagt: vielleicht kommt das mal, aber nicht in der nächsten Zeit.

Hier habe ich unter Performance etwas gefunden.
Das sind übrigens Parameter, die jeder User selbst in seinem Profil nutzen und anpassen kann ('OCR Optionen')
 
Zuletzt bearbeitet:


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat