synOCR synOCR - GUI für OCRmyPDF

geimist · 09. Mrz 2021

Irgendwie scheint OCRmyPDF bei dem PDF Probleme zu haben. Darauf habe ich keinen Einfluss. Davon stammen wahrscheinlich die leeren PDFs. Vielleicht mal ein anderes Image probieren (in der Docker-GUI herunterladen).

Es gibt aber noch ein anderes Problem. Verwendest du irgendwo die Zeichenfolge Privat/0 ? Wenn dem so ist, bitte mal sagen, wo und auf das Sonderzeichen verzichten.

mammut-79 · 09. Mrz 2021

geimist schrieb:
Irgendwie scheint OCRmyPDF bei dem PDF Probleme zu haben. Darauf habe ich keinen Einfluss. Davon stammen wahrscheinlich die leeren PDFs. Vielleicht mal ein anderes Image probieren (in der Docker-GUI herunterladen).

Danke dir für den Hinweis, bei der "erschlagenden Auswahl" von exiftools lasse ich lieber die Finger davon. Dann versuche ich solche PDFs lieber auszuschliessen. Leider funktioniert mir das nicht. Ich habe hierfür den "Suchmuster Quelldateiname" auf "!PB_Kontoauszug$" gesetzt, da alle Auszüge mit diesem Dateititel beginnen. Leider erfolglos. Diese werden dennoch OCR'ed und verschoben.

Den String Privat nutze ich in der TagConfig ausgiebig, da es sich hier um das Konto Privat handelt. Den String "Priavt/0" nutze ich aber nicht. Habe die TagConfig mit Strg+F extra nochmal durchsucht. Hier der einzige Abschnitt in dem ich String "Privat" verwende:

Code:

PB-Privat:
    tagname: Postbank-Privat
    targetfolder: "/volume1/Manni/_OUTPUT/PB-Privat"

Viele Grüsse
Mammut

geimist · 09. Mrz 2021

mammut-79 schrieb:
Danke dir für den Hinweis, bei der "erschlagenden Auswahl" von exiftools lasse ich lieber die Finger davon.

Nicht Exiftool, sondern OCRmyPDF.
Exiftool kann man optional von cphub.net installieren, um Metadaten in die PDFs zu schreiben.

Kontoauszüge und ähnliche Dokumente sind teilweise etwas zickig.
Man könnte es auch mal mit anderen OCRmyPDF-Parametern versuchen (z.B. --force [heißt der so

] um die Erkennung zu erzwingen oder mit einem anderen Parameter die Texterkennung bei vorhandenen Text zu überspringen)

mammut-79 schrieb:
Ich habe hierfür den "Suchmuster Quelldateiname" auf "!PB_Kontoauszug$" gesetzt, da alle Auszüge mit diesem Dateititel beginnen. Leider erfolglos.

$ definiert das Suchmuster als Suffix, also z.B. 2021_01_PB_Kontoauszug.pdf Entspricht das deinem Suchmuster?

mammut-79 schrieb:
Den String "Priavt/0" nutze ich aber nicht.

Lässt sich jetzt schwer ergründen, was da quer schlägt. Solange bei den Tags alles wie gewünscht funktioniert, ist's ja auch nicht so schlimm.

mammut-79 · 09. Mrz 2021

geimist schrieb:
$ definiert das Suchmuster als Suffix, also z.B. 2021_01_PB_Kontoauszug.pdf Entspricht das deinem Suchmuster?

In der GUI heist es dass das Ausrufezeichen die Suche invertiert. Darunter hatte ich verstanden, dass Dokumente mit dem Titel (oder Teil des Titels begrenzt mit $) aus dem OCR Scan ausgenommen werden. Mein Ziel wäre die Dateien dann im _Input Ordner zu belassen und von Zeit zu Zeit manuell zu verschieben.

Wo kann ich OCRmyPDF Parameter einsehen oder ändern? Sorry, dass kenne ich mich nicht so aus. ?

geimist · 09. Mrz 2021

Das ist schon richtig. Ein einleitendes ! definiert das Suchmuster als Ausschlusskriterium. Das abschließende $ findet das Suchmuster am Ende des Dateinamens (Suffix), lässt man es weg, wird das Suchmuster zu Beginn des Dateinamens gesucht (Präfix).

mammut-79 schrieb:
Wo kann ich OCRmyPDF Parameter einsehen oder ändern?

Hier findest du die Hilfe.
Die Parameter kannst du in deinem Profil in der synOCR-GUI anpassen.

Favi · 10. Mrz 2021

Hallo,

legt hier noch jemand auf die Ausgabe der PDFs als PDF/A Wert und kann mir helfen, wie ich OCRmyPDF dazu bringe, diesen Standard einzuhalten?

Laut Hilfe von OCRmyPDF müsste eigentlich jede Datei als PDF/A ausgegeben werden. Ich habe das nun mit Adobe Acrobat bezüglich dem PDF/A-2b Standard bei einer Datei geprüft und bekomme eine Fehlermeldung. Folgende Punkte werden moniert:

Code:

Fehler
"History"-Eintrag in den XMP-Metadaten hat kein "action"-Feld
"History"-Eintrag in den XMP-Metadaten hat kein "parameters"-Feld
XMP-Eigenschaft ist vordefiniert aber nicht entsprechend der Definition verwendet (XMP 2005)
XMP-Eigenschaft nicht vordefiniert und kein Erweiterungsschema vorhanden (XMP 2005)

Kann ich da Parameter in OCRmyPDF anpassen?

Vielen Dank für jeden Hinweis,

Gruß
Favi

geimist · 10. Mrz 2021

In einem der letzten Releases gab es Anpassungen bzgl. PDF/A, aber augenscheinlich nicht PDF/A-2b betreffend (LINK).
Wenn dir das nicht weiterhilft, so frage mal bitte direkt bei jbarlow83 nach - ich kann dir da nicht weiterhelfen.

mammut-79 · 10. Mrz 2021

geimist schrieb:
Das ist schon richtig. Ein einleitendes ! definiert das Suchmuster als Ausschlusskriterium. Das abschließende $ findet das Suchmuster am Ende des Dateinamens (Suffix), lässt man es weg, wird das Suchmuster zu Beginn des Dateinamens gesucht (Präfix).

Hier findest du die Hilfe.
Die Parameter kannst du in deinem Profil in der synOCR-GUI anpassen.

Hallo geimist,

habe im cookbook --force-ocr gefunden und angewendet, danke! s habe ich excluded und es funktioniert. Leider ist nach wie vor kein Inhalt drin. Schade.

Mit dem ! bin ich aber klar gekommen und kann diese Dateien somit nun im Input halten und manuell verschieben.

Nochmals herzlichen Dank für das grossartige Tool und deine stets rasche Hilfe!

Viele Grüsse
Mammut

geimist · 10. Mrz 2021

Prima

Du kannst auch mal --skip-text probieren, um die Texterkennung komplett zu übergehen. Vielleicht kannst du so das Problem mit den leeren Seiten umgehen.

Apfelsaft · 17. Mrz 2021

Hallo geimist,

erstmal danke für deine Mühe und die Umsetzung!

Ich versuche grade auch SynOCR zu installieren.
Leider bekomme ich folgende Meldung:
lang_main_dockerfailed

Liegt das daran, dass ich Docker als extra Paket installiert habe?

Danke schon mal!

geimist · 17. Mrz 2021

Vielen Dank für das Finden einer fehlenden Sprachvariablenzuordnung

Eigentlich sollte dort dieser Fehler stehen:
A C H T U N G:
Docker wurde nicht gefunden.
Bitte prüfe, ob das Paket Docker installiert ist!

Und Docker ist wirklich installiert und läuft?

Apfelsaft · 17. Mrz 2021

Gerne

Ups peinlich. Mir ist eben aufgefallen, dass ich tatsächlich Docker entfernt habe. Jetzt gehts!

Sorry und danke für die schnelle Hilfe!

Apfelsaft · 17. Mrz 2021

Ich hab doch noch eine Frage.

OCR klappt soweit schon ganz gut. Nun will ich den Inhalt der PDF nach dem OCR-Vorgang durchsuchen, aber ohne dazu die PDF zu öffnen. Wie macht Ihr das.
Ich arbeite auf einem Mac. Im Finder gehts nicht oder zumindest nicht auf anhieb.

geimist · 17. Mrz 2021

Wenn die Datei auf deinem Mac liegt, findest du alles per Spotlight.
Verbindest du dich vom Mac via Netzwerkfreigabe zur DS, kann man auch Inhalte per Findersuche (nicht Spotlight) finden, sofern die PDF in einem von UniversalSearch indiziertem Ordner liegt (hier gab es aber letztens mal Probleme).

UniversalSearch als solches ist natürlich auf der DS direkt auch eine Möglichkeit.

Apfelsaft · 17. Mrz 2021

Wir scannen vom Scanner direkt in ein Netzwerklaufwerk (SMB) auf der Synology. Ich greife dann per Freigabe (AFP) auf den Ordner zu.

Hab aber eben gesehen, dass der Ordner von UniversalSearch nicht indiziert wird/wurde. Hab das jetzt mal manuell aktiviert und werde nochmal testen.

Der Finder auf dem Mac und auch Spotlight finden den Inhalt aktuell nur wenn die Datei lokal auf dem Mac liegt.

Danke schon mal!

Apfelsaft · 17. Mrz 2021

Es geht! Super geil!

Ich musste nur in UniversalSearch auf der Synology in den Einstellungen den output-Ordner von synOCR hinzufügen.
Danach die Verbindung zum Netzwerk-Laufwerk auf dem Mac trennen und neu aufbauen (command+K) und schon werden auch die Inhalte durchsucht.

Das wird mich massiv unterstützen im Arbeitsalltag!

Danke Dir!!!

mf_2 · 20. Mrz 2021

Ich habe auf meiner RS819 gerade Docker installiert - allerdings nicht als offizielles Paket, da Synology das nicht für die RS819 anbietet.
Wenn ich nun SynoOCR installieren möchte, so werden Abhängigkeiten geprüft, das fehlende Docker-Package wird bemerkt und die Installation bricht ab, weil das Docker-Package nicht installiert werden kann (da es das nicht für aarch64 sondern nur für x86_64 existiert). Das Package soll aber ja gar nicht installiert werden, weil ich Docker ja schon manuell installiert habe. Wie kann ich die Abhängigkeitsprüfung umgehen?

geimist · 20. Mrz 2021

Ja, um auch inoffizielle Installationen erkennen zu können, prüft synOCR auf dem absoluten Pfad und nicht auf das Paket / SPK.

Wo liegt bei dir Docker?

Gibt es OCRmyPDF überhaupt als Image für ARM?

mf_2 · 20. Mrz 2021

Docker liegt bei mir in /docker
Ich dachte es gibt es als Image für ARM, sonst dürfte es über Docker doch gar nicht gefunden werden. Oder ist meine Annahme falsch?
So sieht das im Portainer aus:

geimist · 20. Mrz 2021

mf_2 schrieb:
Docker liegt bei mir in /docker

Wie lautet der absolute Pfad für die Ausführbare Datei für Docker auf deiner DS?
/docker oder /docker/docker … (was sagt which docker in der Shell)?

Wenn ich den genauen Pfad habe, kann ich dir gerne mal ein Testbuild bereitstellen.

Zu OCRmyPDF:
Wie man in deinem Bild sehen kann, ist das Image für AMD64 (also x86_64) und nicht AArch64 / ARM64.
Du kannst es aber mal versuchen, selbst zu bauen (LINK).

edit:
es scheint auch fertige ARM64-Images zu geben: https://registry.hub.docker.com/search?q=OCRmyPDF&type=image&architecture=arm64