synOCR synOCR - GUI für OCRmyPDF

geimist · 15. Dez 2021

vistalba schrieb:
Ja, bin ich mir zu 100% sicher. Es funktioniert ja auch über den Aufgabenplaner.

Das ist wirklich eigenartig.
Ich werde dir mal eine Testversion erstellen.

Welche ist bei dir jetzt installiert und von wo (mein Server oder cphub.net)?
DSM6 oder DSM7?

Gthorsten schrieb:
Habe gerade mal geschaut . Ich finde kein py3 zum. Installieren. Über das paketzentrum erscheint nur py2. Habe eine ds218+

Auch an dich die Frage: DSM6 oder DSM7?
In DSM7 ist Python3 nativ enthalten. Hier entfällt also dieser Benutzerschritt.

BTW:
Bitte pflegt eure Signaturen. Das erspart sehr oft Nachfragen

Gthorsten · 15. Dez 2021

Bei mir ist es dsm7, habe das dsm7 in die Signatur eingetragen

geimist · 15. Dez 2021

Dann sollte das out of the box laufen …

Gthorsten · 15. Dez 2021

Probiere es nachher mal. Bin jetzt den Rest des Tages in Besprechungen

vistalba · 15. Dez 2021

geimist schrieb:
Welche ist bei dir jetzt installiert und von wo (mein Server oder cphub.net)?
DSM6 oder DSM7?

DSM7 und beta installiert von cphub.net

FrAntje · 17. Dez 2021

Hallo zusammen,
ich weiß nicht, ob es schon einmal gefragt wurde, finde leider nichts.
Ist irgendwie eine Ordnerüberwachung möglich?

geimist · 17. Dez 2021

Nein, derzeit nicht. Lass einfach das Skript in einem kurzen Intervall laufen (geht ja im Aufgabenplaner bis minütlich). Da passiert auch nicht viel, wenn es in den Quellordnern nichts zu tun gibt.

FrAntje · 17. Dez 2021

Ok, danke! Ich versuche es mal

D:VE · 18. Dez 2021

Hallo zusammen,
irgendwie stelle ich mich gerade doof an...

Wie kann ich das OCR-Ergebnis zusätzlich in eine Datei im Zielpfad schreiben?
Das ist doch der --sidecar parameter, oder? Funktioniert bei mir leider nicht... Er mecktert da irgendwas wegen dem Docker image (funktioniert aber ohne sidecar.

Hab da zum Testen auch mal einen absoluten Pfad angegeben. Da wäre die nächste Frage wie ich das anstelle, dass das im Zielverzeichnis mit dem gleichen Dateinamen landet.

-----------------------------------
| ==> Installationsinfo <== |
-----------------------------------

synOCR-user: root
synOCR-Version: 1.0.2
Architecture: x86_64
DSM-build: 15284
Device: 918plus (4016244334)
current Profil: OCR Allgemein
DB-version: 3
WARNING: Error loading config file: .dockercfg: $HOME is not defined
used image (created): jbarlow83/ocrmypdf:latest (2021-12-11T06:06:07)
used ocr-parameter: -srd -l deu --sidecar /volume1/docs/ocr/test.txt

geimist · 18. Dez 2021

Ich habe den Parameter noch nie genutzt.
Das Problem wird sein: Vom Dockercontainer aus kann OCRmyPDF ja keine absoluten Pfad des Host sehen / schreiben.

Wenn du in der GUI ganz unten das Loglevel auf 2 (debug mode) stellst, wird dir das Textfile mit im Log-Ordner gespeichert. Vielleicht reicht dir das ja schon.

D:VE · 18. Dez 2021

geimist schrieb:
Vielleicht reicht dir das ja schon.

Ja, wahrscheinlich... Baue mir ein kleines DMS. Plan ist es, das auf SharePoint zu schieben und dann von da in Ordner weiterzuverarbeiten (die Möglichkeiten von SynOCR reichen mir da nicht).

Weiß jemand wie ich für bestehende files die txt-Dateien nachträglich erzeugen kann gerne auch lokal auf dem Mac?

geimist · 18. Dez 2021

Im DSM gibt es pdftotext.
Da läuft es so: /bin/pdftotext -layout input.pdf output.txt

D:VE · 18. Dez 2021

Kriegt man das irgendwie auch automatisiert?

JB311090 · 18. Dez 2021

Hallo Zusammen,

ich habe heute SynOCR auf meiner DS218+ mit DSM 7 installiert. Nur sind die PDFs nicht durchsuchbar.... Hat jemand eine Idee woran es liegt?

anbei ein Auszug aus meinem LOG:

➜ update image [jbarlow83/ocrmypdf:latest] ➜ WARNING: Error loading config file: .dockercfg: $HOME is not defined
updated successfully

PROCESSING: ➜ Scan_000254.pdf (Sat Dec 18 21:08:48 CET 2021)
temp. target file: /tmp/tmp.tBFhaQ9VPl/Scan_000254.pdf

➜ OCRmyPDF-LOG:
-srd -l deu
WARNING: Error loading config file: .dockercfg: $HOME is not defined
reading file from standard input
Start processing 2 pages concurrently
1 page is facing ⇧, confidence 16.18 - rotation appears correct
2 page is facing ⇧, confidence 14.30 - rotation appears correct
3 page is facing ⇧, confidence 12.63 - no change
4 page is facing ⇧, confidence 14.82 - rotation appears correct
5 page is facing ⇧, confidence 14.68 - rotation appears correct
6 page is facing ⇧, confidence 15.16 - rotation appears correct
7 page is facing ⇧, confidence 14.49 - rotation appears correct
Postprocessing...
Optimize ratio: 1.00 savings: -0.1%
Image optimization did not improve the file - optimizations will not be used
Output sent to stdout
← OCRmyPDF-LOG-END

target file (OK): /tmp/tmp.tBFhaQ9VPl/Scan_000254.pdf

➜ search tags and date:
no tags defined
Using date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
Using date format: 2 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
Using date format: 3 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
Date not found in OCR text - use file date:
day: 02
month:01
year: 2021
➜ renaming:
apply renaming syntax ➜ 2021-01-02__Scan_000254
➜ edit metadata FAILED! - exiftool not found! Please install it over cphub.net if you need it
target file: 2021-01-02__Scan_000254.pdf
➜ Adapt file date (Source: Source file [OCR selected but not found])
➜ move source file to: /volume1/homes/user/Drive/ScansBackup/Scan_000254.pdf
INFO: (notification dosn't work at DSM7 without i18n …)
./synOCR.sh: line 1415: /dev/ttyS1: Permission denied
ERROR at line 1415: echo 2 > /dev/ttyS1
INFO: (PushBullet-TOKEN not set)

Stats:
➜ runtime last file: 00:01:55
➜ pagecount last file: 7
➜ file count profile : (profile default) - 23 PDF's / 55 Pages processed up to now
➜ file count total: 23 PDF's / 55 Pages processed up to now

➜ delete tmp-files …

geimist · 18. Dez 2021

Herzlich willkommen im Forum

JB311090 schrieb:
… Nur sind die PDFs nicht durchsuchbar …

Worauf stützt sich diese Erkenntnis?
Ich kann keine relevanten Fehler im Log ausmachen.

Du kannst mir gern mal eine Beispieldatei hochladen.

JB311090 · 18. Dez 2021

geimist schrieb:
Herzlich willkommen im Forum

Worauf stützt sich diese Erkenntnis?
Ich kann keine relevanten Fehler im Log ausmachen.

Du kannst mir gern mal eine Beispieldatei hochladen.

Danke!

Ich glaube es liegt an Windows. Ich suche in der Suche nach Stichworte und finde nix. In der PDF selbst wenn sie offen ist schon...

Ist das normal?

geimist · 18. Dez 2021

Das ist eine Frage des Indexes. Diesbezüglich kann ich dir leider keine Hilfe anbieten

geimist · 19. Dez 2021

D:VE schrieb:
Kriegt man das irgendwie auch automatisiert?

Anzupassen ist lediglich der Pfad:
find "/volume1/pfad/dokumente" -type f -name '*pdf' -exec pdftotext -layout {} {}.txt \;

synfor · 19. Dez 2021

Sollte das nicht besser so heißen?
find "/volume1/pfad/dokumente" -type f -name '*.pdf' -exec pdftotext -layout {} {}.txt \;

geimist · 19. Dez 2021

Wird der Punkt nicht eh als beliebiges Zeichen gedeutet?
Funktioniert hat es jedenfalls beim Testen, aber schaden kann es bestimmt nicht.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Kaffeautomat