synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
… Lässt sich eigentlich die Konvertierungszeit verbessern? RAM-Verbrauch ist vernachlässigbar, CPU-Auslastung steigt auf ca. 30% an. …
In den Standardeinstellungen sollten alle CPU-Kerne genutzt werden (was ich in der Regel auch beobachten kann). Möglicherweise lassen sich mehrseitige Dokumente besser parallelisieren.

Zu deinen anderen Fragen kann ich dich nur an das Tesseract-Projekt verweisen.
 

nas_stephan

Benutzer
Mitglied seit
28. Aug 2013
Beiträge
249
Punkte für Reaktionen
6
Punkte
18
Hi,

ich plane, demnächst über meinen MF-Drucker (Epson WF3620) Dokumente direkt aufs NAS (DS214+) zu scannen, und will mir in diesem Atemzug auch gleich OCRmyPDF anschauen.
Wo finde ich denn eine Anleitung zur Installation und Handhabung? Habe ich jetzt beim Überfliegen der 50 Seiten nicht adhoc gefunden.

Danke,
Gruß
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Deine DS (DS214+) ist nicht zum Dockerpaket kompatibel (eine DS mit 64bit Intel-CPU wird vorausgesetzt). Entsprechend kann leider auch synOCR nicht installiert werden :(

Die Installation läuft über die Paketquelle CPHub wie im Beitrag #1.
Die Einrichtung sollte (so hoffe ich) selbserklärend sein - dafür gibt es ja die GUI.
 

nas_stephan

Benutzer
Mitglied seit
28. Aug 2013
Beiträge
249
Punkte für Reaktionen
6
Punkte
18
Entsprechend kann leider auch synOCR nicht installiert werden

Oh. Das ist ja doof. :(
Hm, dann muß ich wohl erstmal ohne OCR leben. Trotzdem danke.
 

anton7

Benutzer
Mitglied seit
24. Jan 2015
Beiträge
27
Punkte für Reaktionen
2
Punkte
3
Noch ein Vorschlag für die GUI-Konfiguration. Sofern nicht zu aufwändig, wäre es nett, wenn man die Pfade für in- und output auch grafisch auswählen könnte.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Ja, das wäre schon längst eingebaut, aber mir ist leider keine API des DSM dafür bekannt.
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254

nas_stephan

Benutzer
Mitglied seit
28. Aug 2013
Beiträge
249
Punkte für Reaktionen
6
Punkte
18
Nein, nicht doof, sondern das ist nur die Rechtfertigung dir eine neue DS zuzulegen.
Weihnachten steht auch vor der Tür.

Hab ich gedacht aber nicht geschrieben :D
Leider bringt der Weihnachtsmann mit einer neuen DS auch den neuen Kontoauszug :(

Und leider ist "aber ich muss doch DRINGEND!!! die gescannten pdfs auch OCRen" in den Budgetverhandlungen kein so gewichtiges Argument für 600+ Eur Investitionen. :)

Naja, mal schauen wie die Preise sich im neuen Jahr entwickeln.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
. . . kein so gewichtiges Argument für 600+ Eur Investitionen. . .
Ich will dir nichts einreden, aber für reichlich 300,- € bekommst du eine kompatible DS (DS218+). Deine HDDs kannst du ja weiterhin nutzen.
 

nas_stephan

Benutzer
Mitglied seit
28. Aug 2013
Beiträge
249
Punkte für Reaktionen
6
Punkte
18
Stimmt schon. Aber warum soll ich denn die funktionierende 214+ leer verschimmeln lassen? Also müssen dann doch noch 2 neue HDDs her - läppert sich halt.

Wird jetzt aber OT .... Also danke für die Infos und zurück zum Thema.
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
warum soll ich denn die funktionierende 214+ leer verschimmeln lassen?
Sofort gebraucht verkaufen (z.B. eBay Kleinanzeigen) und mit dem Kaufpreis der DS218+ verrechnen. Mit etwas Glück sind es am Ende nur noch 150 Euro Gesamtinvestition.
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Für mich Mal ganz grundsätzlich eine Frage: dieses Paket/Addon nimmt eine vorhandene PDF-Datei, die in einem bestimmten Verzeichnis liegt und versucht darin die Texte zu erkennen, richtig?

Werden die erkannten Texte dann in die original PDF integriert, so dass man diese "durchsuchen" kann? Wie genau durchsucht man eine solche PDF? Mit dem Windows Explorer?

Michael
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
die in einem bestimmten Verzeichnis liegt und versucht darin die Texte zu erkennen, richtig?
Richtig.

Werden die erkannten Texte dann in die original PDF integriert, so dass man diese "durchsuchen" kann?
Ja.

Möglicher Workflow:
Mittels deinem Dokumentenscanner oder auch Handyapp (z.B. ScanBot) scannst du dein Dokument. Das landet im Verzeichnis auf dem NAS. Dort schnappt sich synOCR das PDF, führt eine OCR-Erkennung durch, ergänzt den Dateinamen z.B. mit Datum oder Tags (alles nach Wunsch) und legt das fertige Dokument in einem anderen Verzeichnis ab. Dort liegt nun ein PDF mit hinterlegtem Text und weiteren Merkmalen (z.B. den Tags). Tags können beliebig angelegt werden, z.B.: "Rechnung, Lieferschein, Verdienstbescheinigung, Finanzamt, Versicherung, usw.". Alle PDFs sind durchsuchbar (Explorer, Software von Drittanbietern).

Das heißt: Du musst nur das Dokument scannen. Der Rest geht automatisch.
 

socram

Benutzer
Mitglied seit
12. Dez 2019
Beiträge
1
Punkte für Reaktionen
0
Punkte
1
[...]

Rich (BBCode):
#!/bin/sh

watchmedo /volume1/your/scan/folder shell-command -p'*.pdf' -c'ocrmanage.sh' -c'echo "starting ocrmanage.sh"' --drop

# don't forget the final dot

Don't forget to change your/scan/folder to the folder you scan your PDF's to!
You can place this script in any folder your like, it doesn't have to be the folder with PDF's, perhaps it's better to use a folder like volume1/myscripts for it. You can name the file whatever you want, i "use watchfolder.sh":

Then place a second script in the same folder as the first script, call it "ocrmanage.sh"
Rich (BBCode):
#!/bin/bash

echo "ocrmanage has started"
while [ -e "/volume1/documenten/administratie/scans/preocr/*.pdf"]; do

	echo "synOCR is started"
	/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh
	wait
	echo "synOCR is done"

done
echo "ocrmanage is done"

[...]

Danke für das Script, das gefällt mir super, da so nur dann etwas ausgeführt wird, wenn das nötig ist.

Allerdings noch zwei Ergänzungen: der Punkt "# don't forget the final dot" ist nicht nötig, das ist nur ein Kommentar, das beim copy/paste wohl versehentlich mit drin gelandet ist, weil hier als Verzeichnis das aktuelle "." gewählt war.
Außerdem muss das Verzeichnis "/volume1/documenten/administratie/scans/preocr/*.pdf" angepasst werden, das wird aber den meisten aufgefallen sein. hinter dem pdf muss noch ein Leerzeichen vor der eckigen Klammer, sonst läuft es auch nicht.
Die korrekte Zeile lautet also: while [ -e "/your/path/here/*.pdf" ]; do

Vielleicht spare ich damit dem ein oder anderen etwas Arbeit.
 
Zuletzt bearbeitet:

guidovg

Benutzer
Mitglied seit
26. Nov 2011
Beiträge
142
Punkte für Reaktionen
43
Punkte
34
Nach ein paar Wochen des "Testen" möchte ich mich an dieser Stelle bei allen - natürlich ganz besonders beim Entwickler der synOCR GUI - und auch bei allen die mir mit Ihren Kommentaren geholfen haben, dass mein Workflow fast ganz rund ist.

Aktuell läuft:
1. Die analogen Dokumente werden mit einem Brother ADS-1700W (yeah!!!) eingescannt und landen direkt im SynOCR _INPUT Folder
2. Die synOCR GUI (bzw. der Job) überprüft, ob etwas in dem Ordner liegt und führt die OCR Bearbeitung durch.
3. Die Ergebnisse landen im _OUTPUT Ordner
4. Auf meinem Mac läuft die App Hazel, die den _OUTPUT Ordner als Hot Folder überwacht
4.1. Hazel wendet verschiedene Regeln an, z.B. ob eine bestimmte Versicherungsnummer, oder Faxnummer etc. gefunden wird
4.2. Sobald eine Regel greift, ist in dieser hinterlegt, was mit dem Dokument passiert, also Umbenenne und dann z.B.
4.3. Versicherungsdokumente werden in den jew. Ordner auf der NAS verschoben
4.4. Schuldokumente gehen auch in einen speziellen Ordner und als Kopie in einen OneDrive-Ordner

etc.

Die Liste der Regeln wird ständig angepasst und erweitert, da der Dok. Scanner erst seit gestern im Haushalt ist und somit Scannen schnell möglich ist.

Keine Rocket-Science, aber läuft ziemlich gut und hilft, dem Chaos Herr zu werden.

Das nächste Etappenziel ist die Evaluation einer Lösung zum schnellen Auffinden von Dokumenten, Universal Search ist cool, läuft aber leider nur auf der DS Oberfläche.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
… Das nächste Etappenziel ist die Evaluation einer Lösung zum schnellen Auffinden von Dokumenten, Universal Search ist cool, läuft aber leider nur auf der DS Oberfläche.
Ich habe alle Dokumente in einem Driveordner und entsprechend auch auf dem MAC. Da ist mit Spotlight natürlich alles in Sekunden gefunden. Wenn du aber auf der DS UniversalSearch nutzt, so kann die Suche in Finder in einem gemounteden Ordner auf den Index von UniversalSearch zugreifen.
 

mördock

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
806
Punkte für Reaktionen
17
Punkte
44
Schon gelesen. Der geimist glaube ich auch. Es gibt dort schon Kommentare Sure auf den geimist hindeuten.
Ich denke es gibt demnächst einige neue, begeisterte Nutzer
 

Feuerwasser

Benutzer
Mitglied seit
28. Aug 2012
Beiträge
245
Punkte für Reaktionen
0
Punkte
22
...und hier ist schon der erste zwar nicht mehr ganz neue, aber trotzdem begeisterte Nutzer :)
Bin gestern auch auf den Cashy Artikel gestoßen obwohl ich sogar die Paketquelle seit jeher hatte. Schande über mein Haupt.
Gleich mal eine gute Nachricht vorne weg für Nutzer von NICHT-Plus Modellen: Da läuft mit hoher Wahrscheinlichkeit auch Docker drauf, es wird nur nicht in den Paketquellen angezeigt. Bei mir läuft Docker vollkommen unproblematisch auf einer DS418play ohne jegliche Kompatibilität angeblich. Darauf läuft Openhab2, PiHole und rsscrawler (bisher). Hatte noch nie Probleme damit. Hier die Anleitung für Sideload: https://tylermade.net/2017/09/28/how-to-install-docker-on-an-unsupported-synology-nas/
Habe jetzt synOCR mit dem OCRmyPDF Container ausprobiert und es läuft total super. Vielen Dank für die Mühe und den Big Step in Richtung unkompliziertes digitales Office, den Du möglich gemacht hast @geimist.

Einen Wunsch hätte ich noch, der bestimmt gar nicht schwer umzusetzen ist: Könntest Du noch neben Pushbullet Pushover Notifications implementieren? Dann wäre die Lösung für mich perfekt.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat