synOCR synOCR - GUI für OCRmyPDF

geimist · 25. Jan 2021

@BigStephan

Du kannst gerne mal vom Server das aktuelle Build testen. Ich muss das zwar noch dokumentieren, aber der Parameter tagname_RegEx sollte wie oben angegeben funktionieren (gerne auch mal mit verschiedenen RegEx spielen / testen).

Außerdem kannst du dir die bisherige Laufzeit im Skript anzeigen lassen (dafür musst du den erweiterten Loglevel 2 einstellen).

Ich freue mich auf dein Feedback

geimist · 26. Jan 2021

oberhex schrieb:
Der OCR-Prozess funktioniert, die Datei wird entsprechend umgenannt und in den definierten Ordner verschoben, ist danach nicht zu öffnen (mit verschiedenen PDF-Viewern getestet).

Vielen Dank für dein Log.
Dem Log nach zu urteilen, gibt es ein Problem beim Kopieren (es kann kein Hardlink gesetzt werden, da cp davon ausgeht, die Dateien würden Volume-übergreifend verlinkt). Da hatte ich schonmal einen Workarround für einen anderen User eingebaut. Kannst du mal von meinem Server (geimist.eu/synOCR/) das letzte Build testen und nochmal ein Log schicken?

oberhex · 26. Jan 2021

Ok, danke...werde ich machen und gebe dir dann Rückmeldung!!

oberhex · 26. Jan 2021

Hi geimist,
hab es mit dem aktuellen Build getestet und nun hat es funktioniert. Vielen Dank für deine Mühen. Benötigst du noch das Log? Gru?

geimist · 26. Jan 2021

Das freut mich

Ich hatte noch mal ein Build erstellt, wo der Fehler besser geloggt wird. Das müsste installiert werden und in der GUI das Loglevel 2 ausgewählt werden. Das fände ich schon mal interessant (mit einer Datei, die anfangs nicht funktionierte).
Danke

polonus · 31. Jan 2021

Hallo Zusammen, zuallererst Vielen, Vielen Dank an geimst für tolle Arbeit!!! Ich benutze synocr seit einigen Tagen und bin super zufrieden damit! Heute habe ich aber leider ein Schreck bekommen. Die Desktop SynOCR Icon ist verschwunden :-( Die Anwendung funktioniert immer nach wie vor. Ich sehe, dass meine Dokumente stündlich gelesen und bearbeitet werden. Ich komme aber nicht mehr an die Regeln. Ich dachte ich würde einfach die Anwendung neu installieren. Ich vermute, dass meine zahlreiche Regeln, die ich definiert habe damit verloren gehen würden. Weißt jemand Rat? Kann ich die Regeln aus einer Datei auf dem System herauskopieren? Es war viel Arbeit sie zu definieren... Ich habe DS920+ mit DSM6.2.3-25426. Ist bei jemanden sonst sowas vorgekommen? Ich habe Synology Mail+ installiert und danach deinstalliert. Ich vermute das war der Auslöser ... Vielen herzlichen Dank im Voraus!!! polonus

geimist · 31. Jan 2021

Hallo polunus,

das Phänomen ist mir nicht bekannt

Welcher Benutzer?
Hat er die Berechtigung für synOCR (Systemsteuerung ? Berechtigungen)?

Die Einstellungen kannst du dir mit HyperBackup sichern (alternativ findest du die Einstellungen hier: /usr/syno/synoman/webman/3rdparty/synOCR/etc).
Erweiterte Regeln als YAML-Datei findest du in deinem Dateisystem (standardmäßig im INPUT-Ordner).

polonus · 31. Jan 2021

Hallo geimst, Danke für deine Antwort. Tja sowas habe ich auch noch nie gesehen. Du meinst welcher Benutzer angemeldet war oder welcher Benutzer Synology Mail+ installierte bzw. deinstallierte? In beiden Fällen war das der Benutzer admin. Grüße, polonus

geimist · 31. Jan 2021

Und zur 2. Frage?

polonus · 01. Feb 2021

Hallo geimst, ja der Benutzer admin hat alle Berechtigungen somit auch für Synocr. Grüße, polonus

geimist · 01. Feb 2021

Dann gerne mal wie beschrieben ein Backup machen, synOCR deinstallieren und anschließend neu installieren.

no.one · 02. Feb 2021

42HAL schrieb:
Hallo Zusammen,

ich versuche PDFs', die von einer Bank stammen (Auszüge, Mitteilungen etc.) zu verarbeiten bzw. abzulegen.
Die PDFs' kann ich mit einem Rader (PDF-XChange Viewer) problemlos lesen (ohne Eingabe eines Passwortes / irgend eines Hinweises).
Sollen diese dann aber verarbeitet werden (Tags' setzen etc.) bekomme ich im log die folgende Fehelrmeldung:

? OCRmyPDF-LOG:
reading file from standard input
EncryptedPdfError: Input PDF is encrypted. The encryption must be removed to
perform OCR.

For information about this PDF's security use
qpdf --show-encryption infilename

You can remove the encryption using
qpdf --decrypt [--password=[password]] infilename
? OCRmyPDF-LOG-END

?? failed! (target file is empty or not available)
Wenn ich versuche "08/15" PDFs' zu bearbeiten Anleitungen / Datenblätter bekomme ich KEINE Fehlermeldung.

Kennt jemand den Effekt / weiß jemand was zu tun ist?

Vielen Dank im Voraus.

Ich habe nun das gleiche Problem mit manchen meiner PDFs....

@geimist Ist es möglich das "qpdf --decrypt..." automatisiert mit synOCR durchlaufen zu lassen?

LG no.one

geimist · 02. Feb 2021

no.one schrieb:
@geimist Ist es möglich das "qpdf --decrypt..." automatisiert mit synOCR durchlaufen zu lassen?

Evtl. könnte man auf qpdf im Dokercontainer OCRmyPDF zugreifen (hilft wohl nur beim Entfernen des Eigentümerkennworts, aber nicht beim Entfernen des Benutzerkennworts).

Die Fragen, die sich mir stellen:

Wem gehören die Dateien?
Wer hat die Rechte daran?
Wie betrifft mich das als Entwickler, wenn ich eine entsprechende Möglichkeit bereitstellen würde?

dreamdealer · 02. Feb 2021

Ausrichtungsproblem.

Tag zusammen. Ich habe seit ca. 2 Wochen (ist mir erst im Nachhinein aufgefallen) das Problem, dass Scans im querformat (also nicht richtig ausgerichtet) mit folgenden Parametern gescannt:

-srd -l deu --rotate-pages-threshold 5

Zwar korrekt gedreht werden, die ursprüngliche Ausrichtung des Dokuments bleibt aber erhalten (hoffe mit der Erklärung könnt ihr was anfangen).

Es wird also der Seiteninhalt "auf der Seite" um 90° gedreht, ohne dass die Ausrichtung der Seite verändert wird.

Ich hab mir jetzt nen Wolf in unterschiedlichsten Quellen gelesen, werde aber leider nicht schlauer.

Setup:
PDFs werden ungedreht und ohne OCR im Eingangsordner abgelegt.

Und da ein Bild ja mehr als 1000 Worte sagt...siehe die Anlage.

Oberes Bild --> So kommts aus dem Scanner
Unteres Bild --> Nach SynOCR

Für Hilfe dankbar:

Stefan

Log:
synOCR-user: root
synOCR-Version: 1.0.2
Architecture: x86_64
DSM-build: 25426
Device: 1520plus (3769673777)
current Profil: Stefan default
DB-version: 3
used image (created): jbarlow83/ocrmypdf:latest (2021-01-26T09:53:58)
used ocr-parameter: -srd -l deu --rotate-pages-threshold 5
replace search prefix: yes
renaming syntax: §ysource_§msource_§dsource
Symbol for tag marking: #
source for filedate: source
Docker Test: OK
Loglevel: normal
Application Directory:
Source directory:
Target directory:
BackUp directory:

----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------

PROCESSING: ? 20210202_224238_0001.pdf (Tue Feb 2 22:43:02 CET 2021)
temp. target file: /tmp/tmp.hdICM9Dhrr/20210202_224238_0001.pdf

? OCRmyPDF-LOG:
reading file from standard input
Start processing 2 pages concurrently
2 page is facing ?, confidence 6.10 - will rotate ?
1 page is facing ?, confidence 9.65 - will rotate ?
Postprocessing...
Optimize ratio: 1.00 savings: -0.1%
Image optimization did not improve the file - discarded
Output sent to stdout
? OCRmyPDF-LOG-END

target file (OK):
? search tags and date:
source for tags is the list from the GUI
tag count: 1
Search by tag: "XXXXXXXXXX
rename tag is: ""

Date not found in OCR text - use file date:
day: 02
month:02
year: 2021
? renaming:
apply renaming syntax ? 2021_02_02
? edit metadata ERROR - exiftool not found! Please install it over cphub.net
File name already exists! Add counter (7)
target file: 2021_02_02 (7).pdf
? Adapt file date (Source: Source file)
? move source file to: /vXXXXXXXX
INFO: (PushBullet-TOKEN not set)
INFO: (runtime last file: 00:00:35 (pagecount: 2) | all: 365 PDFs / 1505 Pages processed up to now)

-----------------------------------
| ==> synOCR ENDE <== |
-----------------------------------

polonus · 03. Feb 2021

geimist schrieb:
Dann gerne mal wie beschrieben ein Backup machen, synOCR deinstallieren und anschließend neu installieren.

Hallo geimst, Vielen Dank für deine Antwort! Ich habe das heute gemacht. Das hat aber leider nichts gebracht. Deinstalliert, neu installiert und die Icon sind trotzdem nicht sichtbar :-( Grüße, polonus

peterhoffmann · 03. Feb 2021

polonus schrieb:
Desktop SynOCR Icon

Ich muss nachhaken, damit wir uns nicht falsch verstehen.
Auf dem Desktop vom DSM?
Oder meinst du aus dem Menü (oben links) vom DSM?

geimist · 03. Feb 2021

Guter Gedanke, Peter. Manchmal denkt man gar nicht so weit …
Alternativ: Lässt sich die GUI über das Paketzentrum öffnen?

geimist · 03. Feb 2021

dreamdealer schrieb:
-srd -l deu --rotate-pages-threshold 5

@dreamdealer
Meines Wissens musst du das mit dem Parameter --rotate-pages verbinden.
Also: --rotate-pages --rotate-pages-threshold 5

wagawaga · 03. Feb 2021

Hallo, ich bin mir jetzt nicht so ganz sicher, ob ich nicht wieder ein älteres Thema aufmache. So richtig hatte ich die Problemstellung hinsichtlich der Sortierung von Tags vielleicht auch nicht verstanden.

Generell möchte ich eigentich folgendes erreichen:

Gegebenes Dokument: Mahnung zu einer Rechnung eines Handwerksbetriebes.

YAML-Rule-File:

aaa_Level1_XYZ_Handwerksbetrieb:
tagname: XYZ_Handwerksbetrieb
targetfolder:
condition: all
subrules:
- searchstring: "XYZ Handwerksbetrieb"
searchtyp: contains
isRegEx: false
source: content
casesensitive: false
bbb_Suffix1_Rechnung:
tagname: Rechnung
targetfolder:
condition: all
subrules:
- searchstring: "Rechnung"
searchtyp: contains
isRegEx: false
source: content
casesensitive: false
ccc_Suffix2_Mahnung:
tagname: Mahnung
targetfolder:
condition: all
subrules:
- searchstring: "Rechnung"
searchtyp: contains
isRegEx: false
source: content
casesensitive: false

Aus den Logs erkenne ich, dass die Tags entsprechend der sampletagrulename (also aaa_*, bbb_*, ccc_*" abgearbeitet werden.

Wenn aber alle oben aufgeführten Rules erfüllt sind, dann bekomme ich den Dateinamen: 2020-xx-xx_Mahnung_Rechnung_XYZ_Handwerksbetrieb, denn offenbar werden die Rules zwar alphabetisch abgearbeitet aber auch alle zugeordneten Tags aplphabetisch sortiert zusammengefügt.

Gewollt hätte ich aber: 2020-xx-xx_XYZ_Handwerksbetrieb_Rechnung_Mahnung

also

2020-xx-xx_Level1_Suffix1_Suffix2

Habe ich da nur etwas bislang falsch gemacht oder geht das tatsächlich derzeit (hoffentlich noch) nicht?

Vielen Dank für eine aufhellende Rückmeldung!
W.

geimist · 03. Feb 2021

Im aktuellen Release ist noch die Sortierung enthalten. Wenn du aber den aktuellen Build von meinem Server nimmst, dann sollte es wie gewünscht funktionieren.