pdf-Scan to Folder (auf die Synology) und dann Texterkennung mit OCR durch Synology

Status
Für weitere Antworten geschlossen.

stweiss

Benutzer
Mitglied seit
09. Jun 2017
Beiträge
34
Punkte für Reaktionen
0
Punkte
0
Hi randfee!

siehe config: $matchWithoutOCR = "Scan*";
Es werden nur die Dateien durch das OCR gejagt, die mit "Scan" beginnen, deshalb wird die "2018-02-04 OCR_Scan01.pdf" nicht erneut gescannt.

Frage:
  • wozu dienen der Archiv und Tag Ordner dann? Verstehe die Beschreibung dahingehend nicht so ganz.

Aktuell ist es so, dass Du die fertig umbenannte Datei selbst in den Archiv-Ordner verschieben musst. Oft muss man am Dateinamen ja noch nacharbeiten, deshalb geht das nicht automatisch.
Wenn dann am Ende des Dateinamens Hashtags vorhanden sind, werden daraus Unterordner im tags-Verzeichnis erstellt und die Datei dort einsortiert (als hardlink, dh. die Datei ist im Archiv-Verzeichnis und in ein oder mehreren tag-Verzeichnissen).
 

randfee

Benutzer
Mitglied seit
08. Apr 2010
Beiträge
1.070
Punkte für Reaktionen
3
Punkte
64
Hi randfee!

siehe config: $matchWithoutOCR = "Scan*";
Es werden nur die Dateien durch das OCR gejagt, die mit "Scan" beginnen, deshalb wird die "2018-02-04 OCR_Scan01.pdf" nicht erneut gescannt.
sorry, fail...Hatte den Post noch editiert während du wohl schon geantwortet hast. Hatte den " * " nicht gesehen und gedacht du parst einfach nach dem string "scan". :p
Hab darüber hinaus aber dann gleich die Frage nach den Nutzerrechten nachgeschoben. Home-Ordner ist für mich leider ein no-go als Ablageort, primär weil der Scanner von mehreren Leuten genutzt wird und ich dem Scanner keinen Zugriff auf Homeverzeichnisse geben will. Der hat zwar einen eigenen User, aber ich finde das unsauber das dorthin zu verschieben. Manchmal will jemand möglichst schnell an seinen Scan und ggf. nicht warten bis OCR fertig ist, somit ist ein automatisches Verschieben nach OCR auf einen gemeinsamen Ordner auch keine Lösung. Einzige Lösung wäre, wenn es in einem beliebigen Ordner laufen könnte.

Vielleicht hat ja jemand eine Idee.

Grüße
Randfee


PS: Bin übrigens überrascht, dass Synology auch sowas nicht hat, wo es das Ganze von QNAP ja zu geben scheint. Hier und da denke ich dann doch das Gras sei grüner auf der anderen Seite:
https://www.qnap.com/en/how-to/tutorial/article/how-to-use-ocr-converter-to-recognize-and-extract-text-from-images
 

Dufooy

Benutzer
Mitglied seit
03. Nov 2012
Beiträge
277
Punkte für Reaktionen
0
Punkte
16
Hallo zusammen,

da dass ganze ja mit PDF toll funktioniert ist die Frage, gibt es so was auch für jpg, gif, tiff so dass am Ende diese in ein PDF mit erkannten Text verwandelt werden.
Sprich gibt es ein brauchbares Tesseract Docker Image?
In dem Zusammenhang wäre auch interessant ob es auch mit eml Dateien (E-Mail als Datei gespeichert mit Anhängen) geht und ob danach aus der Mail mit anhängen ein Durchsuchbares PDF entstehen könnte.
Wäre doch toll um dann alles durchgehend als PDF vorliegen zu haben.

Gruss D.
 

defdanny

Benutzer
Mitglied seit
15. Jan 2017
Beiträge
1
Punkte für Reaktionen
0
Punkte
1
hallo allerseits,
auf der Suche nach einer "Scan-to-PDF"-Lösung inkl. OCR-Unterstützung und Integration eines Synology NAS bin ich auf diesen Fred gestoßen und lese nun mit wachender Begeisterung über die tolle Skript-Lösung von Stefan Weiss. Gerade eben folgt aber die Ernüchterung: In der Liste der unterstützten DS-Modelle zur Nutzung des Docker-Packets fehlt mein single-bay Modell DS116! :(
Gibt es eine andere Möglichkeit, das ocrmypdf Paket zu installieren?
Alternative Pakete?

Ich bin für jeden Tipp dankbar.
 

williserver

Benutzer
Mitglied seit
06. Okt 2016
Beiträge
98
Punkte für Reaktionen
1
Punkte
14
Abbyy FineReader 14 mit Hotfolder Task-Programm!
ABBYY Hot Folder.jpg
 

Huhie

Benutzer
Mitglied seit
29. Nov 2007
Beiträge
450
Punkte für Reaktionen
8
Punkte
18
@stweiss

Super Tool !!! Gestern die aplha installiert und es funktioniert wie gewünscht!
Ich habe schon lange nach einer automatischen ocr Umwandlung gesucht!

DANKE !!!
 

Flame

Benutzer
Mitglied seit
18. Mrz 2018
Beiträge
8
Punkte für Reaktionen
0
Punkte
1
Vielen Dank für diese super Umsetzung. Genau diesen Prozess habe ich gesucht. Während der Umsetzung bin an folgenden Punkten hängen geblieben, die hier aber auch beschrieben sind:
1. auch ich hätte es gerne gehabt die Dateien in einer anderen Freigabe als im "home" Verzeichnis zu verarbeiten
2. das "php" vor dem Pfad beim Task nicht vergessen ;)
3. es wird nur das Abbild von "ocrmypdf" benötigt und kein Container
4. pdftotext ist schon bei Synology enthalten und muss nicht installiert werden

Viele Grüße
 

ah966

Benutzer
Mitglied seit
21. Jul 2012
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Hallo zusammen,

ich habe übers Wochenende auch mal mit dieser Lösung getestet.

Bisher mache ich das folgendermaßen:
- Scan als .tif mittels MFP aufs NAS
- Task 1 auf Windows-Rechner holt die .tif-Dateien und jagt sie durch OmniPage
- Task 2 schiebt die durchsuchbaren PDFs wieder aufs NAS zurück (zumindest die für die gemeinsame Benutzung).

Das Ganze habe ich versucht, mit dem FileBasedMiniDMS abzubilden.

Grundsätzlich funktioniert es - auch mit .tif-Dateien.

Aber: Bei mehrseitigen .tifs wird immer nur die erste Seite in PDF umgewandelt und gespeichert.

Hat jemand eine Idee, an welcher Stelle ich hier ansetzen muß, damit alle Seiten behandelt werden?
Oder ist das bei .tif nicht möglich?

Viele Grüße,
Andreas
 

the_baker

Benutzer
Mitglied seit
20. Okt 2017
Beiträge
108
Punkte für Reaktionen
2
Punkte
18
Ich lasse auch fremde pdf-Dateien konvertieren. Das funktioniert super. Auch mein MFP speichert die Dokumente als pdf und schickt sie selbsttätig zum Konverter ins Verzeichnis, der die dann selbsttätig abarbeitet.

Vielleicht hilft es, das mehrseitige tif (wusste gar nicht, dass das geht) zuerst in ein PDF umzuwandeln und dann durch den Konverter zu jagen?

Alternativ am MFP verschiedene Jobs einrichten? tiff, wenn man es als tiff braucht, pdf sonst?
 

ah966

Benutzer
Mitglied seit
21. Jul 2012
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Hallo,

hat sich bei mir erledigt.

Habe den MFP umgestellt, so daß er die Scans gleich als .pdf speichert.

Jetzt funktioniert es!

Danke.

Viele Grüße,
Andreas
 

the_baker

Benutzer
Mitglied seit
20. Okt 2017
Beiträge
108
Punkte für Reaktionen
2
Punkte
18
docker-Problem bei pdf-Scan to Folder und dann Texterkennung mit OCR durch Synology

Ich habe jetzt ein docker-Problem :-(

Bei mir war ein PDF defekt, weil das Netzwerk während der Übertragung ausgefallen ist.

Rich (BBCode):
date,stream,content
2018-08-29 19:45:58,stderr,

2018-08-29 19:45:58,stderr,/tmp/com.github.ocrmypdf.47uj9_bj/origin.pdf: unable to find trailer dictionary while recovering damaged file

2018-08-29 19:45:58,stderr,WARNING: /tmp/com.github.ocrmypdf.47uj9_bj/origin.pdf: Attempting to reconstruct cross-reference table

2018-08-29 19:45:58,stderr,WARNING: /tmp/com.github.ocrmypdf.47uj9_bj/origin.pdf: can't find startxref

2018-08-29 19:45:58,stderr,  ERROR - Details: WARNING: /tmp/com.github.ocrmypdf.47uj9_bj/origin.pdf: file is damaged

2018-08-29 19:45:58,stderr,"  ERROR - /tmp/com.github.ocrmypdf.47uj9_bj/origin.pdf: not a valid PDF, and could not repair it.

seither streikt das System:

Rich (BBCode):
2018-09-06 10:04:00 Run Docker: docker run --name ocr --rm -u 1043 --cpu-quota=80000 -v "/volume1/scanner/Scanner-OCR:/home/docker" jbarlow83/ocrmypdf -sr -l deu "doc00025820180830173640.pdf" "OCR_doc00025820180830173640.pdf" 2>&1
2018-09-06 10:04:00 Docker output:
 docker: Error response from daemon: Conflict. The container name "/ocr" is already in use by container "5670d544bcb2b774acade8eb91bae5121b787b65267bbd1b4c9089e84c49e967". You have to remove (or rename) that container to be able to reuse that name. 
See 'docker run --help'.

Ich habe versucht:
Die defekte PDF-Datei habe ich gelöscht.
Dann wollte ich den Container löschen. Das gehr aber nicht:

Rich (BBCode):
docker stop ocr; docker rm ocr
ocr
Error response from daemon: You cannot remove a running container 96cac03db3b2fff0113ae979a7bc72be5ccb8f1d0c7d464e2e4537a8c2a6459e. Stop the container before attempting removal or force remove

D.h. ich kann den Container gar nicht so schnell stoppen und löschen, ohne dass er sofort neu startet und nicht gelöscht werden kann.

Auch ein rename des Containers hat nicht geholfen. Es wird dann zwar ein neuer Container angelegt, aber mit dem passiert genau das selbe. Auch den umbenannten Container kann ich nicht löschen.

Ideen?

NACHTRAG:

Ein Stoppen von Docker und Neustart hat für Abhilfe gesorgt. Jetzt funktioniert es wieder.
 
Zuletzt bearbeitet:

Terra8

Benutzer
Mitglied seit
21. Jul 2014
Beiträge
22
Punkte für Reaktionen
1
Punkte
3

Terra8

Benutzer
Mitglied seit
21. Jul 2014
Beiträge
22
Punkte für Reaktionen
1
Punkte
3
Ein herzliches *Danke* an Stefan für die Weitergabe und den Support zu seinem PHP Skript. LG, Tom
 

Huhie

Benutzer
Mitglied seit
29. Nov 2007
Beiträge
450
Punkte für Reaktionen
8
Punkte
18
Hallo Zusammen,

ich nutze "ocrmypdf" im Dockercontainer schon seit längerer Zeit ohne Probleme....

Ich scanne auf mein NAS in den Ordner hans/documents/scan als PDF/A mit dem Dateinamen scan.pdf scan001.pdf usw.

Seit heute bekomme ich folgende Fehlermeldung und die Datei kann nicht gewandelt werden.

2018-11-26 18:30:02 Scanning for new scans: /volume1/hans/documents/scan
2018-11-26 18:30:02 Run Docker: docker run --name ocr --rm -u 1026 -v "/volume1/hans/documents/scan:/home/docker" jbarlow83/ocrmypdf -sr -l deu "scan.pdf" "OCR_scan.pdf" 2>&1
2018-11-26 18:30:04 Docker output:
/application/.docker/docker-wrapper.sh: line 4: cd: /home/docker: Permission denied
ERROR - File not found - scan.pdf
2018-11-26 18:30:04 run: pdftotext -l 1 "/volume1/hans/documents/scan/OCR_scan.pdf" - 2>&1
2018-11-26 18:30:04 pdftotext output:
I/O Error: Couldn't open file '/volume1/hans/documents/scan/OCR_scan.pdf': No such file or directory.

Ich verstehe leider nicht, welche Berechtigungen denn jetzt anders sind?! Kann mir bitte jemand helfen?!

Danke euch!
 

stweiss

Benutzer
Mitglied seit
09. Jun 2017
Beiträge
34
Punkte für Reaktionen
0
Punkte
0
Hallo Huhie,

schön, dass mein Script immer noch benutzt wird :)
Leider kann ich aber nur sehr begrenzt Zeit für dieses Projekt spendieren, aber ich versuchs mal:

Prüfe mal bitte folgendes:
- wem gehört die PDF Datei und hat derjenige auch Zugriff auf /volume1/hans/documents/scan?

Docker wird in deinem Fall als Benutzer mit der id 1026 gestartet. Das sollte die ID von dem Benutzer sein, dem das PDF gehört.
Demzufolge sollte normalerweise diese Benutzer auch die Rechte besitzen, das auf das Verzeichnis /volume1/hans/documents/scan zuzugreifen, das im Docker-Container auf /home/docker gemapped wird.

Viel Erfolg!
Stefan
 

Huhie

Benutzer
Mitglied seit
29. Nov 2007
Beiträge
450
Punkte für Reaktionen
8
Punkte
18
Hallo Stefan,

danke für die Antwort. Das Tool ist wirklich klasse und ich nutze das wirklich viel.

Also ich scanne von meinem HP8740 ins Netzwerk mit den Anmeldedaten von Hans.
Die Datei liegt dann im Ordner Hans - Aber nicht im home Ordner Hans. Sondern in
einem separaten Ordner Hans.

Wie finde ich heraus bzw.. wie meinst Du wem die Datei gehört und welchem Nutzer die ID 1021 zugeordnet ist?
 

rex0241

Benutzer
Mitglied seit
05. Dez 2018
Beiträge
4
Punkte für Reaktionen
0
Punkte
0
Ich war auch auf der Suche und habe mir letztendlich selber etwas zusammengebaut, was seit einer Weile ganz gut den Dienst auf meiner DS415+ verrichtet.
Das ganze habe ich FileBasedMiniDMS getauft und ist hier zu finden: https://github.com/stweiss/FileBasedMiniDMS

Kurz zusammengefasst kann das Script:
- OCR über pdf's laufen lassen
- Anhand von erweiterbaren Regeln in der config.php die PDF's hoffentlich halbwegs sinnvoll umbenennen (inkl. hashtags)
- Und anhand der Hashtags eine Ordnerstruktur erstellen und die PDF's per hardlink dort einsortieren

Die Schritte kann man auch einzeln deaktivieren, falls man möchte.
Mehr Details gibt es auf der Github-Seite.

Bitte um Rückmeldung, falls das jemand tatsächlich nutz ;)

Hallo zusammen,
ich bin noch ein ziemlicher Neuling mit der DS918+, und ich bin verzweifelt auf der Suche nach einem OCR Tool für meine DS.

Verstehe ich das jetzt richtig, dass ich für das FileBasedMiniDMS keinen Linux Rechner brauche? Kann ich dieses Tool direkt auf der DS installieren?
Ich danke Euch für jede Hilfe.

Grüße
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.397
Punkte
234
Ja, das ist richtig (bzw. deine DS ist der Linux-Rechner :)). Du legst 'rohe' PDFs in einen definierten Ordner. Das FileBasedMiniDMS von Stefan ist ein Skript, welches diese PDFs nimmt und an einen Dockercontainer (das Paket 'Docker' musst du über das Paketzentrum installiert haben) übergibt, welches das OCR durchführt und an einem 2. definierten Ordner fertig ablegt.

Du darfst aber keine GUI erwarten. Alle Einstellungen sind wie von Stefan beschrieben in dem Skript anzupassen. Das Skript lässt man dann regelmäßig über den Synology-Aufgabenplaner aufrufen, sodass regelmäßig neue PDFs abgearbeitet werden.

PS:
Herzlich willkommen im Forum :D
 

Huhie

Benutzer
Mitglied seit
29. Nov 2007
Beiträge
450
Punkte für Reaktionen
8
Punkte
18
2018-11-26 18:30:02 Scanning for new scans: /volume1/hans/documents/scan
2018-11-26 18:30:02 Run Docker: docker run --name ocr --rm -u 1026 -v "/volume1/hans/documents/scan:/home/docker" jbarlow83/ocrmypdf -sr -l deu "scan.pdf" "OCR_scan.pdf" 2>&1
2018-11-26 18:30:04 Docker output:
/application/.docker/docker-wrapper.sh: line 4: cd: /home/docker: Permission denied
ERROR - File not found - scan.pdf
2018-11-26 18:30:04 run: pdftotext -l 1 "/volume1/hans/documents/scan/OCR_scan.pdf" - 2>&1
2018-11-26 18:30:04 pdftotext output:
I/O Error: Couldn't open file '/volume1/hans/documents/scan/OCR_scan.pdf': No such file or directory.

Guten Morgen,

ich komme hier leider überhaupt nicht weiter.

Gibt es bei euch den user docker mit einem home Verzeichnis?

Ich habe schon die DS neu aufgesetzt und alles neu manuell (ohne einspielen aus Backup) installiert.
Leider alles ohne Erfolg. Die Fehlermeldung bleibt.

Hat jemand vielleicht noch einen Tip?

vg

Huhie
 
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat