synOCR synOCR - GUI für OCRmyPDF

geimist · 08. Dez. 2019

anton7 schrieb:
… Lässt sich eigentlich die Konvertierungszeit verbessern? RAM-Verbrauch ist vernachlässigbar, CPU-Auslastung steigt auf ca. 30% an. …

In den Standardeinstellungen sollten alle CPU-Kerne genutzt werden (was ich in der Regel auch beobachten kann). Möglicherweise lassen sich mehrseitige Dokumente besser parallelisieren.

Zu deinen anderen Fragen kann ich dich nur an das Tesseract-Projekt verweisen.

nas_stephan · 10. Dez. 2019

Hi,

ich plane, demnächst über meinen MF-Drucker (Epson WF3620) Dokumente direkt aufs NAS (DS214+) zu scannen, und will mir in diesem Atemzug auch gleich OCRmyPDF anschauen.
Wo finde ich denn eine Anleitung zur Installation und Handhabung? Habe ich jetzt beim Überfliegen der 50 Seiten nicht adhoc gefunden.

Danke,
Gruß

geimist · 10. Dez. 2019

Deine DS (DS214+) ist nicht zum Dockerpaket kompatibel (eine DS mit 64bit Intel-CPU wird vorausgesetzt). Entsprechend kann leider auch synOCR nicht installiert werden

Die Installation läuft über die Paketquelle CPHub wie im Beitrag #1.
Die Einrichtung sollte (so hoffe ich) selbserklärend sein - dafür gibt es ja die GUI.

nas_stephan · 10. Dez. 2019

Entsprechend kann leider auch synOCR nicht installiert werden

Oh. Das ist ja doof.

Hm, dann muß ich wohl erstmal ohne OCR leben. Trotzdem danke.

anton7 · 10. Dez. 2019

Noch ein Vorschlag für die GUI-Konfiguration. Sofern nicht zu aufwändig, wäre es nett, wenn man die Pfade für in- und output auch grafisch auswählen könnte.

geimist · 10. Dez. 2019

Ja, das wäre schon längst eingebaut, aber mir ist leider keine API des DSM dafür bekannt.

peterhoffmann · 10. Dez. 2019

nas_stephan schrieb:
Oh. Das ist ja doof.

Nein, nicht doof, sondern das ist nur die Rechtfertigung dir eine neue DS zuzulegen.

Weihnachten steht auch vor der Tür.

nas_stephan schrieb:
dann muss ich wohl erstmal ohne OCR leben

Ein Leben ohne SynOCR kann ich mir gar nicht mehr vorstellen.

nas_stephan · 11. Dez. 2019

Nein, nicht doof, sondern das ist nur die Rechtfertigung dir eine neue DS zuzulegen.
Weihnachten steht auch vor der Tür.

Hab ich gedacht aber nicht geschrieben

Leider bringt der Weihnachtsmann mit einer neuen DS auch den neuen Kontoauszug

Und leider ist "aber ich muss doch DRINGEND!!! die gescannten pdfs auch OCRen" in den Budgetverhandlungen kein so gewichtiges Argument für 600+ Eur Investitionen.

Naja, mal schauen wie die Preise sich im neuen Jahr entwickeln.

geimist · 11. Dez. 2019

nas_stephan schrieb:
. . . kein so gewichtiges Argument für 600+ Eur Investitionen. . .

Ich will dir nichts einreden, aber für reichlich 300,- € bekommst du eine kompatible DS (DS218+). Deine HDDs kannst du ja weiterhin nutzen.

nas_stephan · 11. Dez. 2019

Stimmt schon. Aber warum soll ich denn die funktionierende 214+ leer verschimmeln lassen? Also müssen dann doch noch 2 neue HDDs her - läppert sich halt.

Wird jetzt aber OT .... Also danke für die Infos und zurück zum Thema.

peterhoffmann · 11. Dez. 2019

nas_stephan schrieb:
warum soll ich denn die funktionierende 214+ leer verschimmeln lassen?

Sofort gebraucht verkaufen (z.B. eBay Kleinanzeigen) und mit dem Kaufpreis der DS218+ verrechnen. Mit etwas Glück sind es am Ende nur noch 150 Euro Gesamtinvestition.

Yippie · 11. Dez. 2019

Für mich Mal ganz grundsätzlich eine Frage: dieses Paket/Addon nimmt eine vorhandene PDF-Datei, die in einem bestimmten Verzeichnis liegt und versucht darin die Texte zu erkennen, richtig?

Werden die erkannten Texte dann in die original PDF integriert, so dass man diese "durchsuchen" kann? Wie genau durchsucht man eine solche PDF? Mit dem Windows Explorer?

Michael

peterhoffmann · 11. Dez. 2019

Yippie schrieb:
die in einem bestimmten Verzeichnis liegt und versucht darin die Texte zu erkennen, richtig?

Richtig.

Yippie schrieb:
Werden die erkannten Texte dann in die original PDF integriert, so dass man diese "durchsuchen" kann?

Ja.

Möglicher Workflow:
Mittels deinem Dokumentenscanner oder auch Handyapp (z.B. ScanBot) scannst du dein Dokument. Das landet im Verzeichnis auf dem NAS. Dort schnappt sich synOCR das PDF, führt eine OCR-Erkennung durch, ergänzt den Dateinamen z.B. mit Datum oder Tags (alles nach Wunsch) und legt das fertige Dokument in einem anderen Verzeichnis ab. Dort liegt nun ein PDF mit hinterlegtem Text und weiteren Merkmalen (z.B. den Tags). Tags können beliebig angelegt werden, z.B.: "Rechnung, Lieferschein, Verdienstbescheinigung, Finanzamt, Versicherung, usw.". Alle PDFs sind durchsuchbar (Explorer, Software von Drittanbietern).

Das heißt: Du musst nur das Dokument scannen. Der Rest geht automatisch.

socram · 14. Dez. 2019

koen schrieb:
[...]

Rich (BBCode):

#!/bin/sh watchmedo /volume1/your/scan/folder shell-command -p'*.pdf' -c'ocrmanage.sh' -c'echo "starting ocrmanage.sh"' --drop # don't forget the final dot

Don't forget to change your/scan/folder to the folder you scan your PDF's to!
You can place this script in any folder your like, it doesn't have to be the folder with PDF's, perhaps it's better to use a folder like volume1/myscripts for it. You can name the file whatever you want, i "use watchfolder.sh":

Then place a second script in the same folder as the first script, call it "ocrmanage.sh"

Rich (BBCode):

#!/bin/bash echo "ocrmanage has started" while [ -e "/volume1/documenten/administratie/scans/preocr/*.pdf"]; do echo "synOCR is started" /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh wait echo "synOCR is done" done echo "ocrmanage is done"

[...]

Danke für das Script, das gefällt mir super, da so nur dann etwas ausgeführt wird, wenn das nötig ist.

Allerdings noch zwei Ergänzungen: der Punkt "# don't forget the final dot" ist nicht nötig, das ist nur ein Kommentar, das beim copy/paste wohl versehentlich mit drin gelandet ist, weil hier als Verzeichnis das aktuelle "." gewählt war.
Außerdem muss das Verzeichnis "/volume1/documenten/administratie/scans/preocr/*.pdf" angepasst werden, das wird aber den meisten aufgefallen sein. hinter dem pdf muss noch ein Leerzeichen vor der eckigen Klammer, sonst läuft es auch nicht.
Die korrekte Zeile lautet also: while [ -e "/your/path/here/*.pdf" ]; do

Vielleicht spare ich damit dem ein oder anderen etwas Arbeit.

guidovg · 17. Dez. 2019

Nach ein paar Wochen des "Testen" möchte ich mich an dieser Stelle bei allen - natürlich ganz besonders beim Entwickler der synOCR GUI - und auch bei allen die mir mit Ihren Kommentaren geholfen haben, dass mein Workflow fast ganz rund ist.

Aktuell läuft:
1. Die analogen Dokumente werden mit einem Brother ADS-1700W (yeah!!!) eingescannt und landen direkt im SynOCR _INPUT Folder
2. Die synOCR GUI (bzw. der Job) überprüft, ob etwas in dem Ordner liegt und führt die OCR Bearbeitung durch.
3. Die Ergebnisse landen im _OUTPUT Ordner
4. Auf meinem Mac läuft die App Hazel, die den _OUTPUT Ordner als Hot Folder überwacht
4.1. Hazel wendet verschiedene Regeln an, z.B. ob eine bestimmte Versicherungsnummer, oder Faxnummer etc. gefunden wird
4.2. Sobald eine Regel greift, ist in dieser hinterlegt, was mit dem Dokument passiert, also Umbenenne und dann z.B.
4.3. Versicherungsdokumente werden in den jew. Ordner auf der NAS verschoben
4.4. Schuldokumente gehen auch in einen speziellen Ordner und als Kopie in einen OneDrive-Ordner

etc.

Die Liste der Regeln wird ständig angepasst und erweitert, da der Dok. Scanner erst seit gestern im Haushalt ist und somit Scannen schnell möglich ist.

Keine Rocket-Science, aber läuft ziemlich gut und hilft, dem Chaos Herr zu werden.

Das nächste Etappenziel ist die Evaluation einer Lösung zum schnellen Auffinden von Dokumenten, Universal Search ist cool, läuft aber leider nur auf der DS Oberfläche.

geimist · 17. Dez. 2019

guidovg schrieb:
… Das nächste Etappenziel ist die Evaluation einer Lösung zum schnellen Auffinden von Dokumenten, Universal Search ist cool, läuft aber leider nur auf der DS Oberfläche.

Ich habe alle Dokumente in einem Driveordner und entsprechend auch auf dem MAC. Da ist mit Spotlight natürlich alles in Sekunden gefunden. Wenn du aber auf der DS UniversalSearch nutzt, so kann die Suche in Finder in einem gemounteden Ordner auf den Index von UniversalSearch zugreifen.

peterhoffmann · 26. Dez. 2019

Hinweis:
https://stadt-bremerhaven.de/ocr-von-pdf-dokumenten-auf-dem-synology-nas/

mördock · 26. Dez. 2019

Schon gelesen. Der geimist glaube ich auch. Es gibt dort schon Kommentare Sure auf den geimist hindeuten.
Ich denke es gibt demnächst einige neue, begeisterte Nutzer

geimist · 26. Dez. 2019

Ja, auch entdeckt

Feuerwasser · 27. Dez. 2019

...und hier ist schon der erste zwar nicht mehr ganz neue, aber trotzdem begeisterte Nutzer

Bin gestern auch auf den Cashy Artikel gestoßen obwohl ich sogar die Paketquelle seit jeher hatte. Schande über mein Haupt.
Gleich mal eine gute Nachricht vorne weg für Nutzer von NICHT-Plus Modellen: Da läuft mit hoher Wahrscheinlichkeit auch Docker drauf, es wird nur nicht in den Paketquellen angezeigt. Bei mir läuft Docker vollkommen unproblematisch auf einer DS418play ohne jegliche Kompatibilität angeblich. Darauf läuft Openhab2, PiHole und rsscrawler (bisher). Hatte noch nie Probleme damit. Hier die Anleitung für Sideload: https://tylermade.net/2017/09/28/how-to-install-docker-on-an-unsupported-synology-nas/
Habe jetzt synOCR mit dem OCRmyPDF Container ausprobiert und es läuft total super. Vielen Dank für die Mühe und den Big Step in Richtung unkompliziertes digitales Office, den Du möglich gemacht hast @geimist.

Einen Wunsch hätte ich noch, der bestimmt gar nicht schwer umzusetzen ist: Könntest Du noch neben Pushbullet Pushover Notifications implementieren? Dann wäre die Lösung für mich perfekt.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat