synOCR synOCR - GUI für OCRmyPDF

Timsche2210 · 09. Okt 2021

Hi,

ich bin etwas im Stress, da ich auf DSM 7 geupgraded habe und mein Home Assistant in der VM nicht richtig läuft...
In den ganzen Reboot und Nachdenk-Zeiten würde ich gerne SYNOCR wieder über Docker installieren.
Wenn ich die letzten Seiten richtig überflogen habe, gibt es aktuell nur eine Beta?
Leider habe ich absolut kein Schimmer wie ich diese installieren kann / muss....
Gibt es die Möglichkeit, vom Hyperbackup die Konfig irgendwie zu erlangen?
Hab keine Ahnung mehr, wie die ganzen Konfigs eingestellt waren.
Falls das hier schon beantwortet wurde, reicht mir (vorerst) auch mal ein Link

Grüße
Timo

khakan · 21. Okt 2021

Hallo Geimist

Hoods hatte eine Ähnliche / gleiche Problem schon geschrieben (https://www.synology-forum.de/threads/synocr-gui-fuer-ocrmypdf.99647/post-962498).
Problem ist bei PDF Dokumenten die schon OCR durchlauf haben (egal ob per PDF App oder direkt vom Scanner).
Wenn ich diese PDF Doks durch synOCR umbennen möchte (Schalter -s) wird der Text so kaputt gemacht dass es die Tags nicht findet,
Text kopiert und in ein Text editor hinzugefügt, es sieht dann so aus:
??????????????????????????????????????????? ???????????
P??????????????????????????? ?
???????
??qrsttq??????????????????????????????????????????

Da der Schalter -s nicht das macht was was es soll (überspringen der OCR), ist Frage, ob es möglich ist ocrmypdf überhaupt nicht aufzurufen
z.B. mit einem Schalter -skipocr? Der Schalter "--skip-text" (von ocrmypadf) unter OCR Optionen hat nichts gebracht.

geimist · 21. Okt 2021

@Hoods hatte mir Logs geschickt, ich konnte mich dem aber noch nicht annehmen. Prinzipiell ist es - wie ich da auch schon schrieb - ein Problem von OCRmyPDF. Ob @Hoods ein entsprechendes Ticket eröffnet hat, weiß ich nicht.

Über eine entsprechende Funktion könnte man nachdenken, halte ich aber nicht als zielführend, wenn es sich wirklich lediglich um einen Bug von OCRmyPDF handeln sollte.

LabSen · 26. Okt 2021

Hallo geimist

Ich verwende dein Tools seit langer Zeit mal wieder. Leider gibt es nun aber eine Fehlermeldung:

Code:

    -----------------------------------
    |    ==> installation info <==    |
    -----------------------------------

synOCR-user:              root
synOCR-version:           1.1.2
Architecture:             x86_64
DSM-build:                25556
Device:                   1813plus (4216945856)
current Profil:           default
DB-version:               4
used image (created):     jbarlow83/ocrmypdf:latest (2021-10-12T21:04:02)
used ocr-parameter:       -srd -l deu
replace search prefix:    yes
renaming syntax:          §yocr§mocr§docr_§tag
Symbol for tag marking:   _
source for filedate:      source
ignored dates by search:
Docker Test:              OK
Loglevel:                 normal
Application Directory:    /usr/syno/synoman/webman/3rdparty/synOCR
Source directory:         /volume3/Austausch/Scan/
Target directory:         /volume3/Austausch/Scan/
BackUp directory:         /volume3/Austausch/Scan/Backup/


    ----------------------------------
    |    ==> Funktionsaufrufe <==    |
    ----------------------------------
ERROR at line 1241: pagecount_new=$(( $(get_key_value ./etc/counter pagecount) + $pagecount_latest))
ERROR at line 1242: ocrcount_new=$(( $(get_key_value ./etc/counter ocrcount) + 1))

PROCESSING:   ? Xerox Scan_26102021194220_1.pdf (Tue Oct 26 20:10:02 CEST 2021)
sed: -e expression #1, char 7: unterminated `s' command
ERROR at line 1258: title=$( echo "${title}" | sed s/${SearchPraefix}//I )
                  temp. target file: /tmp/tmp.FQ59RFIM2d/ERROR at line 1258: sed s/${SearchPraefix}//I.pdf
ERROR at line 1270: dockerlog=$(OCRmyPDF 2>&1)

              ? OCRmyPDF-LOG:
               ./synOCR.sh: line 241: /tmp/tmp.FQ59RFIM2d/ERROR at line 1258: sed s/${SearchPraefix}//I.pdf: No such file or directory
               reading file from standard input
                   1 skipping all processing on this page
               Postprocessing...
               Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF's XMP metadata.
               Optimize ratio: 1.00 savings: 0.0%
               write /dev/stdout: broken pipe
               ERROR at line 241: cat - > "$outputtmp"
               ERROR at line 241: cat - > "$outputtmp"
              ? OCRmyPDF-LOG-END

stat: cannot stat '/tmp/tmp.FQ59RFIM2d/ERROR at line 1258: sed s/${SearchPraefix}//I.pdf': No such file or directory
./synOCR.sh: line 1284: [: -eq: unary operator expected
                  ?? failed! (target file is empty or not available)
rm: cannot remove '/tmp/tmp.FQ59RFIM2d/ERROR at line 1258: sed s/${SearchPraefix}//I.pdf': No such file or directory
ERROR at line 1286: rm "${outputtmp}"
                                  ERROR-Directory [/volume3/Austausch/Scan/ERRORFILES] will be created!

Kannst du mir weiterhelfen?

geimist · 26. Okt 2021

Wie lautet dein SearchPraefix?
Evtl. funktioniert es, wenn du das Entfernen des SearchPraefix deaktivierst (zu nächst als Workarround …)

LabSen · 28. Okt 2021

Meine zu suchende Tags sehen so aus:

Code:

UBS;Cembra;FKB;Billag;EWBuchs;Raiffeisen;rii-seez-net;Swisscom;SGKB;TransferWise;Steueramt;SBB;Helvetia;LKW;Marquart;VPBank;Steuererklärung;Steuerrechnung;Stundung;§Rechnung;§Lieferschein;Bestellung;Führerausweis;Führerschein;Prämienabrechnung;Übertretungsanzeige;Lohnabrechnung;§Police;Kontoauszug;Membercard;Versicherungspolice;Invoice;§RMA;Zinsausweis;Belastungsanzeige;Vorsorgebeiträge;Mahnung;Akontorechnung

geimist · 28. Okt 2021

Ich meine das "Suchmuster Quelldateiname"

Bildschirmfoto 2021-10-28 um 10.22.25.png

Schrotti · 30. Okt 2021

Hallo Stephan,

ich ärgere mich noch immer mit ExifTool herum.
ExifTool ist unter /usr/share/applications/Exiftool installiert.
Der Pfad ist in /etc/profile gespeichert.
Ein Aufruf in der Konsole startet auch Exiftool
Das Log meldet noch immer:

edit metadata FAILED! - exiftool not found! Please install it over cphub.net if you need it

Da muss doch irgendwo in den synocr scripten ein Aufruf des Exiftools sein, der den falschen Pfad vorgibt?

DSM 7

geimist · 30. Okt 2021

Was ist denn das Ergebnis, wenn du über den DSM Aufgabenplaner echo $PATH ausgeben lässt?
Hast du das manuell installiert? Vielleicht kannst du einfach noch ein Link in ein bekannteres bin-Verzeichnis setzen.

Schrotti · 30. Okt 2021

hmm da wird der Pfad/usr/share/applications/Exiftool nicht ausgegeben....
In der Konsole wird er aber sehr wohl ausgegeben.

Ich habe ExifTool nach dieser Anleitung von scrapix @jaroboo auf https://community.synology.com/enu/forum/68/post/144720?page=1 installiert.

Ich weiß leider zu wenig von Linux um einen Link zu setzen. Komme leider aus der Windows Welt. Kannst Du da helfen?
Oder anders gefragt, kann ich das Verzeichnis einfach verschieben?

geimist · 31. Okt 2021

Probiere mal so (mit sudo oder als root):
ln -s /usr/share/applications/Exiftool/exiftool /usr/local/bin/exiftool

Schrotti · 31. Okt 2021

Ok, das hat nun funktioniert. (nachdem ich noch lernen musste, dass Linux hier zwischen Groß- und Kleinschreibung unterscheidet;-)
Danke.
Jetzt wird ExifTool gefunden.
Allerdings gibt es nun weitere Fehler:

? edit metadata (exiftool ok) Can't locate Image/ExifTool.pm in @INC (you may need to install the Image::ExifTool module) (@INC contains: /usr/local/bin/lib /usr/local/lib/perl5/site_perl /usr/local/share/perl5/site_perl /usr/local/lib/perl5/vendor_perl /usr/local/share/perl5/vendor_perl /usr/local/lib/perl5/core_perl /usr/local/share/perl5/core_perl .) at /usr/local/bin/exiftool line 37.
BEGIN failed--compilation aborted at /usr/local/bin/exiftool line 37.
ERROR at line 862: exiftool -overwrite_original -time:all="${date_yy}:${date_mm}:${date_dd} 00:00:00" -sep ", " -Keywords="$( echo $renameTag | sed -e "s/^${tagsymbol}//g;s/${tagsymbol}/, /g" )" "${outputtmp}"

In line 37 steht: use Image::ExifTool qw{:pPublic};

Ich glaube, da bist Du nun raus. Der Pfad funktioniert ja nun.
Ich werde mich mal an den Thread nebenan dranhängen.

Danke Dir bis dahin.

LabSen · 04. Nov 2021

geimist schrieb:
Ich meine das "Suchmuster Quelldateiname"

Anhang anzeigen 66012

Dort hatte ich Xerox Scan_ drin. Wenn ich nur Xerox drin habe funktioniert es.

geimist · 04. Nov 2021

Gucke ich mir mal an. Danke für die Rückmeldung.

HansDampf71 · 05. Nov 2021

Ich habe hier lediglich einen Post wegen Encrypted-PDF gefunden, trifft aber auf meinen Fall nicht ganz zu.
Ich habe diverse Dokumente privat eingescannt. Der OCR Prozess läuft auch über fast alle eingescannten PDF-Dateien.

Nur 3 Stück lässt er mit folgender Meldung aus:

Code:

EncryptedPdfError: Input PDF is encrypted. The encryption must be removed to
perform OCR.

For information about this PDF's security use
qpdf --show-encryption infilename

You can remove the encryption using
qpdf --decrypt [--password=[password]] infilename
? OCRmyPDF-LOG-END

Da mein Scanner diese ja nicht verschlüsselt erstellt, hat er mit den anderen Dateien auch nicht gemacht, frage ich mich was da passiert ist?
Wenn ich über Windows Bordmittel die Datei noch mal als PDF "ausdrucke" funktioniert es. Workaround also möglich. Aber schöner wäre es wenn es grundsätzlich funktioniert. Jemand einen Hinweis für mich?

geimist · 05. Nov 2021

Das ist eine Fehlermeldung direkt von OCRmyPDF (synOCR hat da keinen Einfluss drauf). Es gibt ja Scanner, die PDFs auch signieren können. Ob das dann einen entsprechenden Effekt erzeugt, weiß ich nicht. Auch würde es ja nicht dazu passen, dass es mit anderen funktioniert (es sein denn, dass es mit einem bestimmten Scannerprofil zusammenhängt).

Zielführend wäre eine Nachfrage beim Entwickler von OCRmyPDF auf GitHub.

PS: welche OCRmyPDF-Version nutzt du? Vielleicht wäre da mal ein Update hilfreich. Hin und wieder gibt es da ja auch behobene Bugs.

HansDampf71 · 05. Nov 2021

Nein, es ist einfach immer das gleiche Scannerprofil und auch entsprechende Settings hat der Scanner nicht.

Ich nutze synOCR erst seit wenigen Tagen und habe die Stable 1.12 installiert.
Welche OCRmyPDF dahinter steckt? Ich weiß es nicht.

geimist · 05. Nov 2021

HansDampf71 schrieb:
Ich nutze synOCR erst seit wenigen Tagen

Dann wirst du eine aktuelle Version haben.

Könntest du mir mal ein allgemeines Dokument (ohne OCR) schicken, welches diesen Fehler aufweist?

geimist · 06. Nov 2021

geimist schrieb:
Könntest du mir mal ein allgemeines Dokument (ohne OCR) schicken, welches diesen Fehler aufweist?

Hallo @HansDampf71,

vielen Dank für deinen Upload. Ich bin mir aber sehr sicher, dass du dieses Dokument nicht eingescannt hast, sondern dass es digital erstellt wurde und du es so (=verschlüsselt) bekommen hast:

Bildschirmfoto 2021-11-06 um 15.26.25.png

Bildschirmfoto 2021-11-06 um 15.29.06.png

HansDampf71 · 06. Nov 2021

Danke für Deine Mühe. Dann müssen in dem Ordner für meine eingescannten Dokumente tatsächlich noch einige PDF gewesen sein, die ich scheinbar seinerzeit per Email erhalten habe. Erinnere mich zwar nicht, aber dann wohl die einzige Erklärung