pdf-Scan to Folder (auf die Synology) und dann Texterkennung mit OCR durch Synology

Status
Für weitere Antworten geschlossen.

Huhie

Benutzer
Mitglied seit
29. Nov 2007
Beiträge
449
Punkte für Reaktionen
8
Punkte
18
Nabend Zusammen,

also ich habe es leider immer noch nicht zum Laufen bekommen :( - Pure Enttäuschung macht sich breit. Ich finde
den Fehler einfach nicht.

Aktuell bekomme ich immer diesen Fehler hier:

2018-12-10 22:07:09 Scanning for new scans: /volume1/hans/documents/scan/inbox
2018-12-10 22:08:15 Docker output:
/application/.docker/docker-wrapper.sh: line 4: cd: /home/docker: Permission denied
ERROR - File not found - scan.pdf
2018-12-10 22:08:15 pdftotext output:
I/O Error: Couldn't open file '/volume1/hans/documents/scan/inbox/OCR_scan.pdf': No such file or directory.

- Die Benutzer "HOME" Ordner sind deaktiviert
- Installiert ist PHP 5.6 und PHP 7.0 <- Muss hier irgendwas spezielles eingestellt oder aktiviert sein?
- Docker Vers. 17.05.0-0395
- Das Abbild von jbarlow83/OCRmyPDF ist geladen

1.jpg

An welcher Einstellung kann ich noch was versuchen?

Ich freu mich, wenn mir jemand doch noch einen Tip geben könnte !

vg

Huhie
 

DerHoschi

Benutzer
Mitglied seit
19. Dez 2018
Beiträge
1
Punkte für Reaktionen
0
Punkte
0
Hallo zusammen,

ich bin gerade auf dieses geniale Script gestoßen, genau das was ich suche. :)
Fix den Container heruntergeladen, Script auf die DS412+ kopiert, Config.php angepasst, 3 Testdateien abgelegt und Fehler.

Und zwar aus dem Docker:

"2018-12-19 19:26:55 Run Docker: docker run --name ocr --rm -u 1024 -v "/volume1/homes/@DH-AMDOM/0/andreas-1104/Dokumente/_DMS/_inbox:/home/docker" jbarlow83/ocrmypdf -sr -l deu "Scan_2012-06.pdf" "OCR_Scan_2012-06.pdf" 2>&1
2018-12-19 19:27:45 Docker output:
Traceback (most recent call last):
File "/appenv/bin/ocrmypdf", line 7, in <module>
from ocrmypdf.__main__ import run_pipeline
File "/appenv/lib/python3.6/site-packages/ocrmypdf/__init__.py", line 38, in <module>
from . import pdfinfo
File "/appenv/lib/python3.6/site-packages/ocrmypdf/pdfinfo/__init__.py", line 31, in <module>
from .layout import get_page_analysis, get_text_boxes
File "/appenv/lib/python3.6/site-packages/ocrmypdf/pdfinfo/layout.py", line 23, in <module>
import pdfminer.encodingdb
File "/appenv/lib/python3.6/site-packages/pdfminer/encodingdb.py", line 3, in <module>
from .psparser import PSLiteral
File "/appenv/lib/python3.6/site-packages/pdfminer/psparser.py", line 11, in <module>
from .utils import choplist
File "/appenv/lib/python3.6/site-packages/pdfminer/utils.py", line 13, in <module>
import chardet # For str encoding detection in Py3
ModuleNotFoundError: No module named 'chardet'"


Nach kurzer Suche habe ich einfach mal nicht die letzte Version des Containers genommen sondern Version 7.3.1, damit funktioniert alles wunderbar.
Dafür muss dann der Eintrag in der Config.php entsprechend angepasst werden:

$dockercontainer = "jbarlow83/ocrmypdf:v7.3.1";

Dieses also nur als Info für andere User die evtl. auf denselben Fehler laufen.

Ein cooles Script, ich freu mich schon drauf meine Dokumente einzuscannen.

viele Grüße
DerHoschi
 

rex0241

Benutzer
Mitglied seit
05. Dez 2018
Beiträge
4
Punkte für Reaktionen
0
Punkte
0
Guten Morgen zusammen,

ich hoffe ich werde jetzt nicht ausgelacht, aber ich bin da nicht so fit...

Wie bekomme ich ein "ocrmypdf image" erstellt, bzw. was muss ich da machen? Das ist ja gerade mal Schritt eins der Anleitung :-( Sorry...

Viele Grüße
Rex
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.526
Punkte für Reaktionen
1.362
Punkte
234
Du brauchst eine DS, welche Docker unterstützt (also eine Intel 64bit CPU hat). Schreibe doch bitte deine Konfiguration in die Signatur. Das erspart Rückfragen.
 

rex0241

Benutzer
Mitglied seit
05. Dez 2018
Beiträge
4
Punkte für Reaktionen
0
Punkte
0
Du brauchst eine DS, welche Docker unterstützt (also eine Intel 64bit CPU hat). Schreibe doch bitte deine Konfiguration in die Signatur. Das erspart Rückfragen.

Hallo Stephan,

vielen Dank für deine Nachricht. Ich werde die Signatur dann noch bearbeiten. Ich habe eine DS 918+. Damit sollte es doch dann eigentich gehen, oder? Nur weiß ich dann immer noch nicht, wie ich das Image erstelle :-(

Gruß Björn
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.526
Punkte für Reaktionen
1.362
Punkte
234
Du installierst das Paket 'Docker' im Paketzentrum > öffnest es > gehts auf 'Registrierung' und gibst im Suchfeld "jbarlow83/ocrmypdf" ein > markierst die Zeile mit dem passenden Ergebnis > Download-Button > gewünschte Version auswählen (bei mir läuft "latest")
 

elbaero

Benutzer
Mitglied seit
21. Sep 2014
Beiträge
24
Punkte für Reaktionen
0
Punkte
1
Hallo zusammen,
ich beschäftige mich auch seit ein paar Tagen intensiv mit dem Thema und versuche das Skript auf meiner DS 918+ zum laufen zu bekommen (habe selbst leider keine Ahnung von php...). jbarlow83/ocrmypdf läuft bei mir auch als "latest" in docker. Beim Ausführen des Skripts als root bekomme ich folgende Fehlermeldung:
Dear user,

Task Scheduler has completed a scheduled task.

Task: OCRmyPDF
Start time: Tue, 25 Dec 2018 21:30:53 GMT
Stop time: Tue, 25 Dec 2018 21:30:53 GMT
Current status: 1 (Interrupted)
Standard output/error:
Could not open input file: /volume1/dokumente/FileBasedMiniDMS.php

was stimmt da nicht? Die files liegen unter /volume1/dokumente/#input Scan

Grüße und frohe Weihnachten :)
Julian
 

steje43

Benutzer
Mitglied seit
03. Dez 2011
Beiträge
666
Punkte für Reaktionen
35
Punkte
48
Habe mich damit auch beschäftigt. Läuft auf meiner 918+ auch nicht mehr.

Habe aufgegeben...
 

Fusion

Benutzer
Sehr erfahren
Mitglied seit
06. Apr 2013
Beiträge
14.159
Punkte für Reaktionen
912
Punkte
424
@elbaero - liegt die PHP Datei dort?
Und Verzeichnisse wie "#input Scan" sollte man erst mal vermeiden. Sonderzeichen, Leerzeichen, da kann viel schief gehen.
Also vielleicht einfach mal "InputScan" oder "01_InputScan" oder ähnlich.
 

elbaero

Benutzer
Mitglied seit
21. Sep 2014
Beiträge
24
Punkte für Reaktionen
0
Punkte
1
Danke für die Antwort, ich habe auch eine andere Ordnerstruktur ohne Sonderzeichen probiert, derselbe Fehler:
Task: OCRmyPDF
Start time: Wed, 26 Dec 2018 01:43:56 GMT
Stop time: Wed, 26 Dec 2018 01:43:57 GMT
Current status: 1 (Interrupted)
Standard output/error:
Could not open input file: /volume1/homes/julian/dokumente/scan/FileBasedMiniDMS.php

Die config.php und die FileBasedMiniDMS.php liegen beide im selben Ordner, im letzten Fall in diesem hier: /volume1/homes/julian/dokumente/scan
Ich habe lediglich in der config.php via text edit die Pfade für Input und Output folder angepasst, um einfach mal zu testen ob überhaupt etwas passiert. Muss ich in der FileBasedMiniDMS.php auch etwas anpassen? Oder funktionieren die Änderungen via Text edit vielleicht nicht? Danke für die Hilfe.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.526
Punkte für Reaktionen
1.362
Punkte
234
Mit welchem User rufst du das Skript auf? (mit root kommt der gleiche Fehler?)
Du rufst es mit 'php' davor auf?
Rich (BBCode):
php /volume1/homes/julian/dokumente/scan/FileBasedMiniDMS.php
 

elbaero

Benutzer
Mitglied seit
21. Sep 2014
Beiträge
24
Punkte für Reaktionen
0
Punkte
1
Bildschirmfoto 2018-12-26 um 18.17.57.jpg
 

elbaero

Benutzer
Mitglied seit
21. Sep 2014
Beiträge
24
Punkte für Reaktionen
0
Punkte
1
ja genau, ich rufe es mit php davor auf, also so wie du es geschrieben hast. ich habe es mit dem user "julian" (admin) als auch "root" versucht (Vgl. screenshot). Müsste stimmen oder?
 

elbaero

Benutzer
Mitglied seit
21. Sep 2014
Beiträge
24
Punkte für Reaktionen
0
Punkte
1
läuft es bei dir noch? ich habe mal die beiden phps angehängt, würdest du mal reingucken ob ich irgendwo einen fehler habe?Anhang anzeigen SCAN.zip
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.526
Punkte für Reaktionen
1.362
Punkte
234
läuft bei mir.

Wird das Log erstellt? (/volume1/homes/julian/dokumente/scan/scan_input/FileBasedMiniDMS.log)
Ggf. mal auf Loglevel 7 (in der config.php) stellen.
 

elbaero

Benutzer
Mitglied seit
21. Sep 2014
Beiträge
24
Punkte für Reaktionen
0
Punkte
1
nein, kein log-file, auch wenn ich loglevel auf 7 stelle selber fehler und kein logfile...
 

elbaero

Benutzer
Mitglied seit
21. Sep 2014
Beiträge
24
Punkte für Reaktionen
0
Punkte
1
Hi Stefan, ich glaube ich habe den Fehler gefunden, offenbar spielt beim Pfad Groß- und Kleinschreibung eine Rolle, das war mir nicht bewusst. Das Skript wird nun ausgeführt und ein logfile generiert, allerdings werden keine ocr-dokumente generiert - woran liegt es? das logfile findest du im anhang...Anhang anzeigen FileBasedMiniDMS.log.zip
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.526
Punkte für Reaktionen
1.362
Punkte
234
Es ist der gleiche Fehler wie hier: #122
Da ist wohl ein Tippfehler im aktuellen (7.4.0 / latest) Dockercontainer (chardet, anstatt charset). Der Fehler ist dem Entwickler bekannt und sollte eigentlich schon gefixt sein.

Die Lösung findest du da auch:

Nach kurzer Suche habe ich einfach mal nicht die letzte Version des Containers genommen sondern Version 7.3.1, damit funktioniert alles wunderbar.
Dafür muss dann der Eintrag in der Config.php entsprechend angepasst werden:
Rich (BBCode):
$dockercontainer = "jbarlow83/ocrmypdf:v7.3.1";

Ich habe zusätzlich noch den Parameter -d (bzw. --deskew) gesetzt, um leicht schräge Scans zu korregieren.
Rich (BBCode):
$ocropt = "-srd -l deu";
 

elbaero

Benutzer
Mitglied seit
21. Sep 2014
Beiträge
24
Punkte für Reaktionen
0
Punkte
1
Hi Staphan, danke dir, eine (vielleicht blöde) Frage noch: Wie bekomme ich das alte docker image auf die diskstation?
 
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat