synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.540
Punkte für Reaktionen
1.373
Punkte
234
Ja, bin ich mir zu 100% sicher. Es funktioniert ja auch über den Aufgabenplaner.
Das ist wirklich eigenartig.
Ich werde dir mal eine Testversion erstellen.

Welche ist bei dir jetzt installiert und von wo (mein Server oder cphub.net)?
DSM6 oder DSM7?

Habe gerade mal geschaut . Ich finde kein py3 zum. Installieren. Über das paketzentrum erscheint nur py2. Habe eine ds218+
Auch an dich die Frage: DSM6 oder DSM7?
In DSM7 ist Python3 nativ enthalten. Hier entfällt also dieser Benutzerschritt.

BTW:
Bitte pflegt eure Signaturen. Das erspart sehr oft Nachfragen :)
 
  • Like
Reaktionen: Gthorsten

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Probiere es nachher mal. Bin jetzt den Rest des Tages in Besprechungen
 

FrAntje

Benutzer
Mitglied seit
25. Mai 2016
Beiträge
359
Punkte für Reaktionen
17
Punkte
18
Hallo zusammen,
ich weiß nicht, ob es schon einmal gefragt wurde, finde leider nichts.
Ist irgendwie eine Ordnerüberwachung möglich?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.540
Punkte für Reaktionen
1.373
Punkte
234
Nein, derzeit nicht. Lass einfach das Skript in einem kurzen Intervall laufen (geht ja im Aufgabenplaner bis minütlich). Da passiert auch nicht viel, wenn es in den Quellordnern nichts zu tun gibt.
 

D:VE

Benutzer
Mitglied seit
18. Jan 2018
Beiträge
10
Punkte für Reaktionen
0
Punkte
1
Hallo zusammen,
irgendwie stelle ich mich gerade doof an...

Wie kann ich das OCR-Ergebnis zusätzlich in eine Datei im Zielpfad schreiben?
Das ist doch der --sidecar parameter, oder? Funktioniert bei mir leider nicht... Er mecktert da irgendwas wegen dem Docker image (funktioniert aber ohne sidecar.

Hab da zum Testen auch mal einen absoluten Pfad angegeben. Da wäre die nächste Frage wie ich das anstelle, dass das im Zielverzeichnis mit dem gleichen Dateinamen landet.

-----------------------------------
| ==> Installationsinfo <== |
-----------------------------------

synOCR-user: root
synOCR-Version: 1.0.2
Architecture: x86_64
DSM-build: 15284
Device: 918plus (4016244334)
current Profil: OCR Allgemein
DB-version: 3
WARNING: Error loading config file: .dockercfg: $HOME is not defined
used image (created): jbarlow83/ocrmypdf:latest (2021-12-11T06:06:07)
used ocr-parameter: -srd -l deu --sidecar /volume1/docs/ocr/test.txt
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.540
Punkte für Reaktionen
1.373
Punkte
234
Ich habe den Parameter noch nie genutzt.
Das Problem wird sein: Vom Dockercontainer aus kann OCRmyPDF ja keine absoluten Pfad des Host sehen / schreiben.

Wenn du in der GUI ganz unten das Loglevel auf 2 (debug mode) stellst, wird dir das Textfile mit im Log-Ordner gespeichert. Vielleicht reicht dir das ja schon.
 

D:VE

Benutzer
Mitglied seit
18. Jan 2018
Beiträge
10
Punkte für Reaktionen
0
Punkte
1
Vielleicht reicht dir das ja schon.

Ja, wahrscheinlich... Baue mir ein kleines DMS. Plan ist es, das auf SharePoint zu schieben und dann von da in Ordner weiterzuverarbeiten (die Möglichkeiten von SynOCR reichen mir da nicht).

Weiß jemand wie ich für bestehende files die txt-Dateien nachträglich erzeugen kann gerne auch lokal auf dem Mac?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.540
Punkte für Reaktionen
1.373
Punkte
234
Im DSM gibt es pdftotext.
Da läuft es so: /bin/pdftotext -layout input.pdf output.txt
 

D:VE

Benutzer
Mitglied seit
18. Jan 2018
Beiträge
10
Punkte für Reaktionen
0
Punkte
1
Kriegt man das irgendwie auch automatisiert?
 
Zuletzt bearbeitet von einem Moderator:

JB311090

Benutzer
Mitglied seit
18. Dez 2021
Beiträge
6
Punkte für Reaktionen
0
Punkte
1
Hallo Zusammen,

ich habe heute SynOCR auf meiner DS218+ mit DSM 7 installiert. Nur sind die PDFs nicht durchsuchbar.... Hat jemand eine Idee woran es liegt?

anbei ein Auszug aus meinem LOG:


➜ update image [jbarlow83/ocrmypdf:latest] ➜ WARNING: Error loading config file: .dockercfg: $HOME is not defined
updated successfully

PROCESSING: ➜ Scan_000254.pdf (Sat Dec 18 21:08:48 CET 2021)
temp. target file: /tmp/tmp.tBFhaQ9VPl/Scan_000254.pdf

➜ OCRmyPDF-LOG:
-srd -l deu
WARNING: Error loading config file: .dockercfg: $HOME is not defined
reading file from standard input
Start processing 2 pages concurrently
1 page is facing ⇧, confidence 16.18 - rotation appears correct
2 page is facing ⇧, confidence 14.30 - rotation appears correct
3 page is facing ⇧, confidence 12.63 - no change
4 page is facing ⇧, confidence 14.82 - rotation appears correct
5 page is facing ⇧, confidence 14.68 - rotation appears correct
6 page is facing ⇧, confidence 15.16 - rotation appears correct
7 page is facing ⇧, confidence 14.49 - rotation appears correct
Postprocessing...
Optimize ratio: 1.00 savings: -0.1%
Image optimization did not improve the file - optimizations will not be used
Output sent to stdout
← OCRmyPDF-LOG-END

target file (OK): /tmp/tmp.tBFhaQ9VPl/Scan_000254.pdf

➜ search tags and date:
no tags defined
Using date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
Using date format: 2 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
Using date format: 3 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
Date not found in OCR text - use file date:
day: 02
month:01
year: 2021
➜ renaming:
apply renaming syntax ➜ 2021-01-02__Scan_000254
➜ edit metadata FAILED! - exiftool not found! Please install it over cphub.net if you need it
target file: 2021-01-02__Scan_000254.pdf
➜ Adapt file date (Source: Source file [OCR selected but not found])
➜ move source file to: /volume1/homes/user/Drive/ScansBackup/Scan_000254.pdf
INFO: (notification dosn't work at DSM7 without i18n …)
./synOCR.sh: line 1415: /dev/ttyS1: Permission denied
ERROR at line 1415: echo 2 > /dev/ttyS1
INFO: (PushBullet-TOKEN not set)

Stats:
➜ runtime last file: 00:01:55
➜ pagecount last file: 7
➜ file count profile : (profile default) - 23 PDF's / 55 Pages processed up to now
➜ file count total: 23 PDF's / 55 Pages processed up to now

➜ delete tmp-files …
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.540
Punkte für Reaktionen
1.373
Punkte
234

JB311090

Benutzer
Mitglied seit
18. Dez 2021
Beiträge
6
Punkte für Reaktionen
0
Punkte
1
Herzlich willkommen im Forum :)

Worauf stützt sich diese Erkenntnis?
Ich kann keine relevanten Fehler im Log ausmachen.

Du kannst mir gern mal eine Beispieldatei hochladen.
Danke!

Ich glaube es liegt an Windows. Ich suche in der Suche nach Stichworte und finde nix. In der PDF selbst wenn sie offen ist schon...

Ist das normal?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.540
Punkte für Reaktionen
1.373
Punkte
234
Das ist eine Frage des Indexes. Diesbezüglich kann ich dir leider keine Hilfe anbieten 🤷‍♂️
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.540
Punkte für Reaktionen
1.373
Punkte
234
Kriegt man das irgendwie auch automatisiert?
Anzupassen ist lediglich der Pfad:
find "/volume1/pfad/dokumente" -type f -name '*pdf' -exec pdftotext -layout {} {}.txt \;
 

synfor

Benutzer
Sehr erfahren
Mitglied seit
22. Dez 2017
Beiträge
9.020
Punkte für Reaktionen
1.614
Punkte
308
Sollte das nicht besser so heißen?
find "/volume1/pfad/dokumente" -type f -name '*.pdf' -exec pdftotext -layout {} {}.txt \;
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.540
Punkte für Reaktionen
1.373
Punkte
234
Wird der Punkt nicht eh als beliebiges Zeichen gedeutet?
Funktioniert hat es jedenfalls beim Testen, aber schaden kann es bestimmt nicht.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat