synOCR synOCR - GUI für OCRmyPDF

geimist · 21. Aug. 2020

Du meinst in den Metadaten?
Mit Exiftool wird lediglich die Zeit und die Schlagworte geschrieben. In meinen Dokumenten ist der Wert "Titel" leer.

In den OCR-Parametern hast du es nicht angegeben, oder?

Nybass · 21. Aug. 2020

Ja genau - ich meine die Metadaten:

Habe keine entsprechende EInstellung gefunden:

geimist · 21. Aug. 2020

Ich kann es nicht nachvollziehen. Mit unterschiedlichen PDF-Betrachtern habe ich mir die Metadaten angesehen. Das Titel-Feld ist jeweils leer.

Ist das vielleicht eine Eigenart deiner Software? Hast du schon mal ein anderes Programm getestet?
Wie sieht das bei anderen Dokumenten aus (z.B. frische Scans)?

Nybass · 21. Aug. 2020

Habe nun extra ein frisches Dokument eingescannt. Da sind alle Metadaten leer:

Geöffnet habe ich die PDFs mit Firefox bzw. Chrome. Beide zeigen mit den Titel = Untitled an.

Ich verwende noch deine Version 0.16.3 und habe gesehen, dass es nun eine 1.0.1 gibt.
Soll ich mal updaten?

geimist · 21. Aug. 2020

Wie ich gesehen habe, wird "untitled" direkt von ocrmypdf geschrieben.
Metadaten werden von synOCR erst seit Version 1.0 geschrieben (Datum / Tags), sofern das Exiftool installiert ist.

Titel kannst du auch selbst in der Parameterzeile mit --title value angeben (Anführungszeichen funktionieren derzeit an dieser Stelle nicht).

Nybass · 21. Aug. 2020

Ich bin nun mal auf die aktuelle Version von dir gegangen.

Nun ist bei mir auch der Titel leer. Manchmal lohnt sich ein Update eben doch

Habe direkt mal die Paketquelle gesetzt, sodass ich die Updates mitbekomme. Danke für deine tolle Arbeit

cmorlok · 24. Aug. 2020

geimist schrieb:
Dafür gibt es ja (seit Version 0.17 ?) die Möglichkeit, die Tags in einer externen Datei unterzubringen (das Tagfeld enthält lediglich den absoluten Pfad zu der Datei). Die erweiteren Regeln im YAML-File ab Version 1.0.0 laufen ja eh über ein externes File.

Also: mal beherzt den blauen Button neben dem Tag-Feld in der Version 1.0.x anklicken

Vielen Dank erst einmal für die grandiose Arbeit an der GUI.

Ich habe voller Erwartung heute auf die Version 1.0.1 aktualisiert, und wollte die Regeln in YAML konvertieren. Aber leider gibt es bei mir keinen blauen Button dafür. Ich habe es auch mit der 1.0.4 von der Webseite versucht, ebenfalls kein Button. Schliesslich habe ich das Paket komplett deinstalliert und die 1.0.1 neu installiert. Immer noch kein Button. Nur das Tag-Feld, und dieselber Hilfebutton mit demselben Text wie eh und je.

geimist · 24. Aug. 2020

Da ich unterwegs bin, kann ich gerade nur begrenzt helfen.

Genau neben dem Tagfeld hast du keinen Button?
Wie sieht es aus, wenn du das Profil duplizierst und die Tags mal löscht. Ist dann der Button nach einem Reload sichtbar?

Es gibt mehrere Bedingungen, die für die Sichtbarkeit erfüllt sein müssen:

taglist verweißt auf keine externe Datei
... ODER verweißt auf eine externe Datei und hat max. eine Zeile
... UND Eingabeverzeichnis ist ein gültiger Pfad

cmorlok · 24. Aug. 2020

Ja, ich habe es gerade im Source Code selber nachgelesen: https://geimist.eu:30443/geimist/synOCR/src/branch/master/APP/edit.sh#L730

Es wäre vielleicht hilfreich, den Button trotzdem einzublenden, aber inaktiv, mit dem Hinweis darauf, welche Bedingungen erfüllt sein müssen. Und noch besser wäre es noch, wenn man auch mehrzeilige Tag-Files konvertieren könnte. Ist ein Zeilenumbruch in der Datei nicht gleichbedeutend wie ein Semikolon in der Tag-Liste?

geimist · 24. Aug. 2020

cmorlok schrieb:
noch besser wäre es noch, wenn man auch mehrzeilige Tag-Files konvertieren könnte

Das Tag-GUI-Feld verträgt derzeit keine Zeilenumbrüche. Auch für ein externes Tagfile habe ich das nicht anders implementiert. Daher prüfe ich derzeit auf diese Art, ob es sich bei einer evtl. vorhandenen externen Regeldatei um die konvertierbaren Standardregeln (einzeilig - Button vorhanden), oder um ein nicht zukonvertierendes YAML-File (mehrzeilig - Button wird nicht eingeblendet) handelt.

Geht es inzwischen bei dir?

cmorlok · 24. Aug. 2020

Ja, es geht. Das mit dem externen Tagfile wundert mich aber. Meins hat etwa 100 Zeilen, und es funktioniert wunderbar. Jede Zeile ist ein Tag.

geimist · 24. Aug. 2020

Mich wundert es nicht wirklich, dass es mit der externen Datei auch mehrzeilig funktioniert, aber ich habe es nicht daraufhin getestet. Aber Semikola als Tagtrenner hast du dennoch?

cmorlok · 24. Aug. 2020

Nein, keine Semikolon. Nur = für die Kategorien, und sonst ein Tag pro Zeile.

dempie743 · 26. Aug. 2020

Hallo,

@geimist
Erst einmal vielen Dank für deine tolle App. Sie erleichtert den Papierkram enorm. Sicherlich steckst in dieses Projekt sehr viel Zeit. Allen Respekt.

Zur Konfiguration hätte ich eine Frage:
Lässt sich unter OCR Rename Syntax auch die aktuelle Uhrzeit mit einfügen?

Danke.

dempie743

geimist · 26. Aug. 2020

Hallo dempie743 und herzlich willkommen hier im Forum,

nein, das geht derzeit leider nicht. Die Frage kam jetzt schon einmal und habe es mir notiert.
Ob und wann es implementiert wird, kann ich dir nicht sagen.

delocke · 31. Aug. 2020

Moinsen,
ich habe hier ein Problem, welches ich nicht gelöst bekomme. Ich nutze seit längerem -und das sehr zufrieden- Synocr in Kombination mit einem ScanSnap und Hazel. Das verrichtete bisher zuverlässig seinen Dienst. Heute mußte ich feststellen, daß Hazel die OCRten Dokumente nicht mehr umbenennt und sortiert.
Nach längerem Suchen ist mir aufgefallen, dass die Inhalte der PDFs zwar kopierbar aber kryptisch sind. So wird beispielsweise der Text "Beitragsnummer" als "19WWINUSBhEINAg" erkannt.
Ich habe, nachdem mir in der Konfiguration nichts aufgefallen ist, neu installiert und eine Fehlermeldung bekommen, die auf ein Problem mit dem Language File hingewiesen hat. Das vielleicht noch als Hinweis.

Vielen Dank vorab!

Hier noch der letzte Log:

| ==> Installationsinfo <== |
-----------------------------------

synOCR-user: root
synOCR-Version: 1.0.1
Architecture: x86_64
DSM-build: 25426
Device: 216plusII (0197108920)
current Profil: default
DB-version: 3
used image (created): jbarlow83/ocrmypdf:latest (2020-08-27T00:16:57)
used ocr-parameter: -srd -l deu
replace search prefix: yes
renaming syntax: §yocr_§mocr_§docr §tag_OCR
Symbol for tag marking: #
source for filedate: ocr
Docker Test: OK
Loglevel: normal
Application Directory: /usr/syno/synoman/webman/3rdparty/synOCR
Source directory: /volume1/docker/Pdf/Input/
Target directory: /volume1/docker/Pdf/Out/
Files are deleted immediately! / No valid directory [/]

----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------

PROCESSING: ? 2020_08_31 _OCR.pdf (Mon Aug 31 15:32:00 CEST 2020)
temp. target file: /tmp/tmp.6V6XSmM566/2020_08_31 _OCR.pdf

? OCRmyPDF-LOG:
reading file from standard input
Start processing 2 pages concurrently
1 skipping all processing on this page
2 skipping all processing on this page
Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF's XMP metadata.
Optimize ratio: 1.00 savings: -0.2%
Image optimization did not improve the file - discarded
Output sent to stdout
? OCRmyPDF-LOG-END

target file (OK): /volume1/docker/Pdf/Out/temp_2020_08_31 _OCR_1598880720.pdf
? transfer the file permissions and owners (use standard linux permissions)
? search tags and date:
no tags defined
Date not found in OCR text - use file date:
day: 31
month:08
year: 2020
? renaming:
apply renaming syntax ? 2020_08_31 _OCR
? edit metadata (exiftool ok) 1 image files updated
? Adapt file date (Source: Source file [OCR selected but not found])
target file: 2020_08_31 _OCR.pdf
? delete source file
INFO: (PushBullet-TOKEN not set)
INFO: (runtime last file: 00:01:19 (pagecount: 2) | all: 5 PDFs / 10 Pages processed up to now)

PROCESSING: ? 2020_08_19 _OCR.pdf (Mon Aug 31 15:33:19 CEST 2020)
temp. target file: /tmp/tmp.kaaLJdIX3Z/2020_08_19 _OCR.pdf

? OCRmyPDF-LOG:
reading file from standard input
Start processing 2 pages concurrently
1 skipping all processing on this page
2 skipping all processing on this page
Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF's XMP metadata.
Optimize ratio: 1.00 savings: -0.2%
Image optimization did not improve the file - discarded
Output sent to stdout
? OCRmyPDF-LOG-END

target file (OK): /volume1/docker/Pdf/Out/temp_2020_08_19 _OCR_1598880799.pdf
? transfer the file permissions and owners (use standard linux permissions)
? search tags and date:
no tags defined
Date not found in OCR text - use file date:
day: 19
month:08
year: 2020
? renaming:
apply renaming syntax ? 2020_08_19 _OCR
? edit metadata (exiftool ok) 1 image files updated
? Adapt file date (Source: Source file [OCR selected but not found])
target file: 2020_08_19 _OCR.pdf
? delete source file
INFO: (PushBullet-TOKEN not set)
INFO: (runtime last file: 00:00:48 (pagecount: 2) | all: 6 PDFs / 12 Pages processed up to now)

-----------------------------------
| ==> synOCR ENDE <== |
-----------------------------------

geimist · 31. Aug. 2020

Grundsätzlich ist die Erkennung Sache vom Dockercontainer OCRmyPDF.
Mir scheint es aber, dass deine Dokumente übersprungen werden. Ist da ganz sicher kein Text enthalten?

Du kannst die Bearbeitung mit dem Schalter --force-ocr erzwingen. Deine Parameterzeile also mal auf so ändern: -srd --force-ocr -l deu

delocke · 31. Aug. 2020

gerade mal die Zeile entsprechend angepasst und durchlaufen lassen. Die Files werden nicht bearbeitet und liegen immer noch im Input Ordner.

Ja, in dem Pdf ist Text gefunden worden, allerdings kryptisch.

Hier ist z.B. ein erkannter Absatz aus einer GEZ Rechnung:
"
ujoylWwusqn auluo Bp’Beiynaqyunjpun4 ?3lun usfeq Sy] 19P0 UHSPUSMUAA JeINnUNO- SIÖNJSÄIOq Sep ?nya?y

IS USUUOY HUIHH) "USBOZIÄUIS OJUOY WAY] UOA BIyuny SBEAINSqYyUunJPuUNn} SIP USPI9OM SIEPUEWYUYUOSISE -Y4IS sap Bunfayg 1SP IYy ;uslyez YUyasIse sad wonbag pun yoeyus Heimaqyunjpuny UP 3IS USJUIOYN
"
Für mich sieht das aus, als wäre zwar ein OCR gelaufen, aber nicht richtig. Wie schon geschrieben, in der Vergangenheit ist das problemlos durch gelaufen und ich habe -zumindest aktiv- nicht daran rum geschraubt.

Hier noch der aktuelle Log:
-----------------------------------
| ==> Installationsinfo <== |
-----------------------------------

synOCR-user: root
synOCR-Version: 1.0.1
Architecture: x86_64
DSM-build: 25426
Device: 216plusII (0197108920)
current Profil: default
DB-version: 3
used image (created): jbarlow83/ocrmypdf:latest (2020-08-27T00:16:57)
used ocr-parameter: -srd --force-ocr -l deu
replace search prefix: yes
renaming syntax: §yocr_§mocr_§docr §tag_OCR
Symbol for tag marking: #
source for filedate: ocr
Docker Test: OK
Loglevel: normal
Application Directory: /usr/syno/synoman/webman/3rdparty/synOCR
Source directory: /volume1/docker/Pdf/Input/
Target directory: /volume1/docker/Pdf/Out/
Files are deleted immediately! / No valid directory [/]

----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------

PROCESSING: ? 2020_08_31 _OCR.pdf (Mon Aug 31 16:11:23 CEST 2020)
temp. target file: /tmp/tmp.MqSD0i7Ui6/2020_08_31 _OCR.pdf

? OCRmyPDF-LOG:
Choose only one of --force-ocr, --skip-text, --redo-ocr.
read unix @->/var/run/docker.sock: read: connection reset by peer
? OCRmyPDF-LOG-END

?? failed! (target file is empty or not available)

PROCESSING: ? 2020_08_19 _OCR.pdf (Mon Aug 31 16:11:27 CEST 2020)
temp. target file: /tmp/tmp.q7c70MCTon/2020_08_19 _OCR.pdf

? OCRmyPDF-LOG:
Choose only one of --force-ocr, --skip-text, --redo-ocr.
read unix @->/var/run/docker.sock: read: connection reset by peer
? OCRmyPDF-LOG-END

?? failed! (target file is empty or not available)

-----------------------------------
| ==> synOCR ENDE <== |

geimist · 31. Aug. 2020

delocke schrieb:
Choose only one of --force-ocr, --skip-text, --redo-ocr.

Sorry, war ein Fehler im Parameter (dafür muss s raus).
Also so: -rd --force-ocr -l deu oder so: -rdf -l deu

delocke schrieb:
Für mich sieht das aus, als wäre zwar ein OCR gelaufen, aber nicht richtig.

Im Input-Ordner liegen nur Originale. Davon wurde nichts von synOCR bearbeitet. Es liegt also irgendwie an deinen Dokumenten.
Du kannst ja zum Test mal ein altes, erfolgreiche bearbeitetes PDF aus dem Backupordner durchlaufen lassen.

delocke · 31. Aug. 2020

Stephan, danke!
Nachdem ich den Parameter angepasst habe, funzt es! Sowohl die beiden Beitragsrechnungen, als auch eine "heile", alte Datei sind verarbeitet worden und direkt von Hazel bearbeitet worden.

Ich habe mir wohl mit dem "S" selber ins Knie geschossen. Ich vermute vor der Neuinstallation war irgendwas im Eimer und nach der -vermutlich heilenden- Neuinstallation ist mir das "S" reingerutscht.

Anyway: vielen Dank für die Unterstützung!
Jan

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat