synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Du meinst in den Metadaten?
Mit Exiftool wird lediglich die Zeit und die Schlagworte geschrieben. In meinen Dokumenten ist der Wert "Titel" leer.

In den OCR-Parametern hast du es nicht angegeben, oder?
 

Nybass

Benutzer
Mitglied seit
27. Mai 2010
Beiträge
93
Punkte für Reaktionen
3
Punkte
8
Ja genau - ich meine die Metadaten:

ocr.png

Habe keine entsprechende EInstellung gefunden:
ocr2.png
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Ich kann es nicht nachvollziehen. Mit unterschiedlichen PDF-Betrachtern habe ich mir die Metadaten angesehen. Das Titel-Feld ist jeweils leer.

Ist das vielleicht eine Eigenart deiner Software? Hast du schon mal ein anderes Programm getestet?
Wie sieht das bei anderen Dokumenten aus (z.B. frische Scans)?
 

Nybass

Benutzer
Mitglied seit
27. Mai 2010
Beiträge
93
Punkte für Reaktionen
3
Punkte
8
Habe nun extra ein frisches Dokument eingescannt. Da sind alle Metadaten leer:
1598036601375.png

Geöffnet habe ich die PDFs mit Firefox bzw. Chrome. Beide zeigen mit den Titel = Untitled an.

Ich verwende noch deine Version 0.16.3 und habe gesehen, dass es nun eine 1.0.1 gibt.
Soll ich mal updaten?
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Wie ich gesehen habe, wird "untitled" direkt von ocrmypdf geschrieben.
Metadaten werden von synOCR erst seit Version 1.0 geschrieben (Datum / Tags), sofern das Exiftool installiert ist.

Titel kannst du auch selbst in der Parameterzeile mit --title value angeben (Anführungszeichen funktionieren derzeit an dieser Stelle nicht).
 

Nybass

Benutzer
Mitglied seit
27. Mai 2010
Beiträge
93
Punkte für Reaktionen
3
Punkte
8
Ich bin nun mal auf die aktuelle Version von dir gegangen.

Nun ist bei mir auch der Titel leer. Manchmal lohnt sich ein Update eben doch ;)

Habe direkt mal die Paketquelle gesetzt, sodass ich die Updates mitbekomme. Danke für deine tolle Arbeit
 
  • Like
Reaktionen: geimist

cmorlok

Benutzer
Mitglied seit
24. Aug 2020
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Dafür gibt es ja (seit Version 0.17 ?) die Möglichkeit, die Tags in einer externen Datei unterzubringen (das Tagfeld enthält lediglich den absoluten Pfad zu der Datei). Die erweiteren Regeln im YAML-File ab Version 1.0.0 laufen ja eh über ein externes File.

Also: mal beherzt den blauen Button neben dem Tag-Feld in der Version 1.0.x anklicken :)

Vielen Dank erst einmal für die grandiose Arbeit an der GUI.

Ich habe voller Erwartung heute auf die Version 1.0.1 aktualisiert, und wollte die Regeln in YAML konvertieren. Aber leider gibt es bei mir keinen blauen Button dafür. Ich habe es auch mit der 1.0.4 von der Webseite versucht, ebenfalls kein Button. Schliesslich habe ich das Paket komplett deinstalliert und die 1.0.1 neu installiert. Immer noch kein Button. Nur das Tag-Feld, und dieselber Hilfebutton mit demselben Text wie eh und je.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Da ich unterwegs bin, kann ich gerade nur begrenzt helfen.

Genau neben dem Tagfeld hast du keinen Button?
Wie sieht es aus, wenn du das Profil duplizierst und die Tags mal löscht. Ist dann der Button nach einem Reload sichtbar?

Es gibt mehrere Bedingungen, die für die Sichtbarkeit erfüllt sein müssen:
  • taglist verweißt auf keine externe Datei
  • ... ODER verweißt auf eine externe Datei und hat max. eine Zeile
  • ... UND Eingabeverzeichnis ist ein gültiger Pfad
 
Zuletzt bearbeitet:

cmorlok

Benutzer
Mitglied seit
24. Aug 2020
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Ja, ich habe es gerade im Source Code selber nachgelesen: https://geimist.eu:30443/geimist/synOCR/src/branch/master/APP/edit.sh#L730

Es wäre vielleicht hilfreich, den Button trotzdem einzublenden, aber inaktiv, mit dem Hinweis darauf, welche Bedingungen erfüllt sein müssen. Und noch besser wäre es noch, wenn man auch mehrzeilige Tag-Files konvertieren könnte. Ist ein Zeilenumbruch in der Datei nicht gleichbedeutend wie ein Semikolon in der Tag-Liste?
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
noch besser wäre es noch, wenn man auch mehrzeilige Tag-Files konvertieren könnte
Das Tag-GUI-Feld verträgt derzeit keine Zeilenumbrüche. Auch für ein externes Tagfile habe ich das nicht anders implementiert. Daher prüfe ich derzeit auf diese Art, ob es sich bei einer evtl. vorhandenen externen Regeldatei um die konvertierbaren Standardregeln (einzeilig - Button vorhanden), oder um ein nicht zukonvertierendes YAML-File (mehrzeilig - Button wird nicht eingeblendet) handelt.

Geht es inzwischen bei dir?
 

cmorlok

Benutzer
Mitglied seit
24. Aug 2020
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Ja, es geht. Das mit dem externen Tagfile wundert mich aber. Meins hat etwa 100 Zeilen, und es funktioniert wunderbar. Jede Zeile ist ein Tag.
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Mich wundert es nicht wirklich, dass es mit der externen Datei auch mehrzeilig funktioniert, aber ich habe es nicht daraufhin getestet. Aber Semikola als Tagtrenner hast du dennoch?
 

dempie743

Benutzer
Mitglied seit
09. Mrz 2010
Beiträge
1
Punkte für Reaktionen
0
Punkte
1
Hallo,

@geimist
Erst einmal vielen Dank für deine tolle App. Sie erleichtert den Papierkram enorm. Sicherlich steckst in dieses Projekt sehr viel Zeit. Allen Respekt.

Zur Konfiguration hätte ich eine Frage:
Lässt sich unter OCR Rename Syntax auch die aktuelle Uhrzeit mit einfügen?

Danke.

dempie743
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Hallo dempie743 und herzlich willkommen hier im Forum,

nein, das geht derzeit leider nicht. Die Frage kam jetzt schon einmal und habe es mir notiert.
Ob und wann es implementiert wird, kann ich dir nicht sagen.
 
  • Like
Reaktionen: ikeninix

delocke

Benutzer
Mitglied seit
05. Feb 2011
Beiträge
66
Punkte für Reaktionen
12
Punkte
8
Moinsen,
ich habe hier ein Problem, welches ich nicht gelöst bekomme. Ich nutze seit längerem -und das sehr zufrieden- Synocr in Kombination mit einem ScanSnap und Hazel. Das verrichtete bisher zuverlässig seinen Dienst. Heute mußte ich feststellen, daß Hazel die OCRten Dokumente nicht mehr umbenennt und sortiert.
Nach längerem Suchen ist mir aufgefallen, dass die Inhalte der PDFs zwar kopierbar aber kryptisch sind. So wird beispielsweise der Text "Beitragsnummer" als "19WWINUSBhEINAg" erkannt.
Ich habe, nachdem mir in der Konfiguration nichts aufgefallen ist, neu installiert und eine Fehlermeldung bekommen, die auf ein Problem mit dem Language File hingewiesen hat. Das vielleicht noch als Hinweis.


Vielen Dank vorab!

Hier noch der letzte Log:

| ==> Installationsinfo <== |
-----------------------------------

synOCR-user: root
synOCR-Version: 1.0.1
Architecture: x86_64
DSM-build: 25426
Device: 216plusII (0197108920)
current Profil: default
DB-version: 3
used image (created): jbarlow83/ocrmypdf:latest (2020-08-27T00:16:57)
used ocr-parameter: -srd -l deu
replace search prefix: yes
renaming syntax: §yocr_§mocr_§docr §tag_OCR
Symbol for tag marking: #
source for filedate: ocr
Docker Test: OK
Loglevel: normal
Application Directory: /usr/syno/synoman/webman/3rdparty/synOCR
Source directory: /volume1/docker/Pdf/Input/
Target directory: /volume1/docker/Pdf/Out/
Files are deleted immediately! / No valid directory [/]


----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------

PROCESSING: ? 2020_08_31 _OCR.pdf (Mon Aug 31 15:32:00 CEST 2020)
temp. target file: /tmp/tmp.6V6XSmM566/2020_08_31 _OCR.pdf

? OCRmyPDF-LOG:
reading file from standard input
Start processing 2 pages concurrently
1 skipping all processing on this page
2 skipping all processing on this page
Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF's XMP metadata.
Optimize ratio: 1.00 savings: -0.2%
Image optimization did not improve the file - discarded
Output sent to stdout
? OCRmyPDF-LOG-END

target file (OK): /volume1/docker/Pdf/Out/temp_2020_08_31 _OCR_1598880720.pdf
? transfer the file permissions and owners (use standard linux permissions)
? search tags and date:
no tags defined
Date not found in OCR text - use file date:
day: 31
month:08
year: 2020
? renaming:
apply renaming syntax ? 2020_08_31 _OCR
? edit metadata (exiftool ok) 1 image files updated
? Adapt file date (Source: Source file [OCR selected but not found])
target file: 2020_08_31 _OCR.pdf
? delete source file
INFO: (PushBullet-TOKEN not set)
INFO: (runtime last file: 00:01:19 (pagecount: 2) | all: 5 PDFs / 10 Pages processed up to now)

PROCESSING: ? 2020_08_19 _OCR.pdf (Mon Aug 31 15:33:19 CEST 2020)
temp. target file: /tmp/tmp.kaaLJdIX3Z/2020_08_19 _OCR.pdf

? OCRmyPDF-LOG:
reading file from standard input
Start processing 2 pages concurrently
1 skipping all processing on this page
2 skipping all processing on this page
Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF's XMP metadata.
Optimize ratio: 1.00 savings: -0.2%
Image optimization did not improve the file - discarded
Output sent to stdout
? OCRmyPDF-LOG-END

target file (OK): /volume1/docker/Pdf/Out/temp_2020_08_19 _OCR_1598880799.pdf
? transfer the file permissions and owners (use standard linux permissions)
? search tags and date:
no tags defined
Date not found in OCR text - use file date:
day: 19
month:08
year: 2020
? renaming:
apply renaming syntax ? 2020_08_19 _OCR
? edit metadata (exiftool ok) 1 image files updated
? Adapt file date (Source: Source file [OCR selected but not found])
target file: 2020_08_19 _OCR.pdf
? delete source file
INFO: (PushBullet-TOKEN not set)
INFO: (runtime last file: 00:00:48 (pagecount: 2) | all: 6 PDFs / 12 Pages processed up to now)


-----------------------------------
| ==> synOCR ENDE <== |
-----------------------------------
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Grundsätzlich ist die Erkennung Sache vom Dockercontainer OCRmyPDF.
Mir scheint es aber, dass deine Dokumente übersprungen werden. Ist da ganz sicher kein Text enthalten?

Du kannst die Bearbeitung mit dem Schalter --force-ocr erzwingen. Deine Parameterzeile also mal auf so ändern: -srd --force-ocr -l deu
 

delocke

Benutzer
Mitglied seit
05. Feb 2011
Beiträge
66
Punkte für Reaktionen
12
Punkte
8
gerade mal die Zeile entsprechend angepasst und durchlaufen lassen. Die Files werden nicht bearbeitet und liegen immer noch im Input Ordner.

Ja, in dem Pdf ist Text gefunden worden, allerdings kryptisch.

Hier ist z.B. ein erkannter Absatz aus einer GEZ Rechnung:
"
ujoylWwusqn auluo Bp’Beiynaqyunjpun4 ?3lun usfeq Sy] 19P0 UHSPUSMUAA JeINnUNO- SIÖNJSÄIOq Sep ?nya?y

IS USUUOY HUIHH) "USBOZIÄUIS OJUOY WAY] UOA BIyuny SBEAINSqYyUunJPuUNn} SIP USPI9OM SIEPUEWYUYUOSISE -Y4IS sap Bunfayg 1SP IYy ;uslyez YUyasIse sad wonbag pun yoeyus Heimaqyunjpuny UP 3IS USJUIOYN
"
Für mich sieht das aus, als wäre zwar ein OCR gelaufen, aber nicht richtig. Wie schon geschrieben, in der Vergangenheit ist das problemlos durch gelaufen und ich habe -zumindest aktiv- nicht daran rum geschraubt.


Hier noch der aktuelle Log:
-----------------------------------
| ==> Installationsinfo <== |
-----------------------------------

synOCR-user: root
synOCR-Version: 1.0.1
Architecture: x86_64
DSM-build: 25426
Device: 216plusII (0197108920)
current Profil: default
DB-version: 3
used image (created): jbarlow83/ocrmypdf:latest (2020-08-27T00:16:57)
used ocr-parameter: -srd --force-ocr -l deu
replace search prefix: yes
renaming syntax: §yocr_§mocr_§docr §tag_OCR
Symbol for tag marking: #
source for filedate: ocr
Docker Test: OK
Loglevel: normal
Application Directory: /usr/syno/synoman/webman/3rdparty/synOCR
Source directory: /volume1/docker/Pdf/Input/
Target directory: /volume1/docker/Pdf/Out/
Files are deleted immediately! / No valid directory [/]


----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------

PROCESSING: ? 2020_08_31 _OCR.pdf (Mon Aug 31 16:11:23 CEST 2020)
temp. target file: /tmp/tmp.MqSD0i7Ui6/2020_08_31 _OCR.pdf

? OCRmyPDF-LOG:
Choose only one of --force-ocr, --skip-text, --redo-ocr.
read unix @->/var/run/docker.sock: read: connection reset by peer
? OCRmyPDF-LOG-END

?? failed! (target file is empty or not available)

PROCESSING: ? 2020_08_19 _OCR.pdf (Mon Aug 31 16:11:27 CEST 2020)
temp. target file: /tmp/tmp.q7c70MCTon/2020_08_19 _OCR.pdf

? OCRmyPDF-LOG:
Choose only one of --force-ocr, --skip-text, --redo-ocr.
read unix @->/var/run/docker.sock: read: connection reset by peer
? OCRmyPDF-LOG-END

?? failed! (target file is empty or not available)


-----------------------------------
| ==> synOCR ENDE <== |
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Choose only one of --force-ocr, --skip-text, --redo-ocr.
Sorry, war ein Fehler im Parameter (dafür muss s raus).
Also so: -rd --force-ocr -l deu oder so: -rdf -l deu
Für mich sieht das aus, als wäre zwar ein OCR gelaufen, aber nicht richtig.

Im Input-Ordner liegen nur Originale. Davon wurde nichts von synOCR bearbeitet. Es liegt also irgendwie an deinen Dokumenten.
Du kannst ja zum Test mal ein altes, erfolgreiche bearbeitetes PDF aus dem Backupordner durchlaufen lassen.
 

delocke

Benutzer
Mitglied seit
05. Feb 2011
Beiträge
66
Punkte für Reaktionen
12
Punkte
8
Stephan, danke!
Nachdem ich den Parameter angepasst habe, funzt es! Sowohl die beiden Beitragsrechnungen, als auch eine "heile", alte Datei sind verarbeitet worden und direkt von Hazel bearbeitet worden.

Ich habe mir wohl mit dem "S" selber ins Knie geschossen. Ich vermute vor der Neuinstallation war irgendwas im Eimer und nach der -vermutlich heilenden- Neuinstallation ist mir das "S" reingerutscht.

Anyway: vielen Dank für die Unterstützung!
Jan
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat