synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Irgendwie scheint OCRmyPDF bei dem PDF Probleme zu haben. Darauf habe ich keinen Einfluss. Davon stammen wahrscheinlich die leeren PDFs. Vielleicht mal ein anderes Image probieren (in der Docker-GUI herunterladen).

Es gibt aber noch ein anderes Problem. Verwendest du irgendwo die Zeichenfolge Privat/0 ? Wenn dem so ist, bitte mal sagen, wo und auf das Sonderzeichen verzichten.
 

mammut-79

Benutzer
Mitglied seit
04. Mai 2017
Beiträge
7
Punkte für Reaktionen
1
Punkte
53
Irgendwie scheint OCRmyPDF bei dem PDF Probleme zu haben. Darauf habe ich keinen Einfluss. Davon stammen wahrscheinlich die leeren PDFs. Vielleicht mal ein anderes Image probieren (in der Docker-GUI herunterladen).
Danke dir für den Hinweis, bei der "erschlagenden Auswahl" von exiftools lasse ich lieber die Finger davon. Dann versuche ich solche PDFs lieber auszuschliessen. Leider funktioniert mir das nicht. Ich habe hierfür den "Suchmuster Quelldateiname" auf "!PB_Kontoauszug$" gesetzt, da alle Auszüge mit diesem Dateititel beginnen. Leider erfolglos. Diese werden dennoch OCR'ed und verschoben.


Den String Privat nutze ich in der TagConfig ausgiebig, da es sich hier um das Konto Privat handelt. Den String "Priavt/0" nutze ich aber nicht. Habe die TagConfig mit Strg+F extra nochmal durchsucht. Hier der einzige Abschnitt in dem ich String "Privat" verwende:

Code:
PB-Privat:
    tagname: Postbank-Privat
    targetfolder: "/volume1/Manni/_OUTPUT/PB-Privat"

Viele Grüsse
Mammut
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Danke dir für den Hinweis, bei der "erschlagenden Auswahl" von exiftools lasse ich lieber die Finger davon.
Nicht Exiftool, sondern OCRmyPDF.
Exiftool kann man optional von cphub.net installieren, um Metadaten in die PDFs zu schreiben.

Kontoauszüge und ähnliche Dokumente sind teilweise etwas zickig.
Man könnte es auch mal mit anderen OCRmyPDF-Parametern versuchen (z.B. --force [heißt der so :unsure: ] um die Erkennung zu erzwingen oder mit einem anderen Parameter die Texterkennung bei vorhandenen Text zu überspringen)
Ich habe hierfür den "Suchmuster Quelldateiname" auf "!PB_Kontoauszug$" gesetzt, da alle Auszüge mit diesem Dateititel beginnen. Leider erfolglos.
$ definiert das Suchmuster als Suffix, also z.B. 2021_01_PB_Kontoauszug.pdf Entspricht das deinem Suchmuster?

Den String "Priavt/0" nutze ich aber nicht.
Lässt sich jetzt schwer ergründen, was da quer schlägt. Solange bei den Tags alles wie gewünscht funktioniert, ist's ja auch nicht so schlimm.
 

mammut-79

Benutzer
Mitglied seit
04. Mai 2017
Beiträge
7
Punkte für Reaktionen
1
Punkte
53
$ definiert das Suchmuster als Suffix, also z.B. 2021_01_PB_Kontoauszug.pdf Entspricht das deinem Suchmuster?
In der GUI heist es dass das Ausrufezeichen die Suche invertiert. Darunter hatte ich verstanden, dass Dokumente mit dem Titel (oder Teil des Titels begrenzt mit $) aus dem OCR Scan ausgenommen werden. Mein Ziel wäre die Dateien dann im _Input Ordner zu belassen und von Zeit zu Zeit manuell zu verschieben.

Wo kann ich OCRmyPDF Parameter einsehen oder ändern? Sorry, dass kenne ich mich nicht so aus. ?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Das ist schon richtig. Ein einleitendes ! definiert das Suchmuster als Ausschlusskriterium. Das abschließende $ findet das Suchmuster am Ende des Dateinamens (Suffix), lässt man es weg, wird das Suchmuster zu Beginn des Dateinamens gesucht (Präfix).

Wo kann ich OCRmyPDF Parameter einsehen oder ändern?
Hier findest du die Hilfe.
Die Parameter kannst du in deinem Profil in der synOCR-GUI anpassen.
 
  • Like
Reaktionen: mammut-79

Favi

Benutzer
Mitglied seit
19. Okt 2015
Beiträge
59
Punkte für Reaktionen
0
Punkte
6
Hallo,

legt hier noch jemand auf die Ausgabe der PDFs als PDF/A Wert und kann mir helfen, wie ich OCRmyPDF dazu bringe, diesen Standard einzuhalten?

Laut Hilfe von OCRmyPDF müsste eigentlich jede Datei als PDF/A ausgegeben werden. Ich habe das nun mit Adobe Acrobat bezüglich dem PDF/A-2b Standard bei einer Datei geprüft und bekomme eine Fehlermeldung. Folgende Punkte werden moniert:
Code:
Fehler
"History"-Eintrag in den XMP-Metadaten hat kein "action"-Feld
"History"-Eintrag in den XMP-Metadaten hat kein "parameters"-Feld
XMP-Eigenschaft ist vordefiniert aber nicht entsprechend der Definition verwendet (XMP 2005)
XMP-Eigenschaft nicht vordefiniert und kein Erweiterungsschema vorhanden (XMP 2005)

Kann ich da Parameter in OCRmyPDF anpassen?

Vielen Dank für jeden Hinweis,

Gruß
Favi
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
In einem der letzten Releases gab es Anpassungen bzgl. PDF/A, aber augenscheinlich nicht PDF/A-2b betreffend (LINK).
Wenn dir das nicht weiterhilft, so frage mal bitte direkt bei jbarlow83 nach - ich kann dir da nicht weiterhelfen.
 

mammut-79

Benutzer
Mitglied seit
04. Mai 2017
Beiträge
7
Punkte für Reaktionen
1
Punkte
53
Das ist schon richtig. Ein einleitendes ! definiert das Suchmuster als Ausschlusskriterium. Das abschließende $ findet das Suchmuster am Ende des Dateinamens (Suffix), lässt man es weg, wird das Suchmuster zu Beginn des Dateinamens gesucht (Präfix).

Hier findest du die Hilfe.
Die Parameter kannst du in deinem Profil in der synOCR-GUI anpassen.

Hallo geimist,

habe im cookbook --force-ocr gefunden und angewendet, danke! s habe ich excluded und es funktioniert. Leider ist nach wie vor kein Inhalt drin. Schade.

Mit dem ! bin ich aber klar gekommen und kann diese Dateien somit nun im Input halten und manuell verschieben.

Nochmals herzlichen Dank für das grossartige Tool und deine stets rasche Hilfe!

Viele Grüsse
Mammut
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Prima :)

Du kannst auch mal --skip-text probieren, um die Texterkennung komplett zu übergehen. Vielleicht kannst du so das Problem mit den leeren Seiten umgehen.
 

Apfelsaft

Benutzer
Mitglied seit
19. Jan 2017
Beiträge
26
Punkte für Reaktionen
3
Punkte
3
Hallo geimist,

erstmal danke für deine Mühe und die Umsetzung!

Ich versuche grade auch SynOCR zu installieren.
Leider bekomme ich folgende Meldung:
lang_main_dockerfailed

Liegt das daran, dass ich Docker als extra Paket installiert habe?

Danke schon mal!
 

Anhänge

  • synOCR_lang_main_dockerfailed.png
    synOCR_lang_main_dockerfailed.png
    299,1 KB · Aufrufe: 10

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Vielen Dank für das Finden einer fehlenden Sprachvariablenzuordnung :cool:

Eigentlich sollte dort dieser Fehler stehen:
A C H T U N G:
Docker wurde nicht gefunden.
Bitte prüfe, ob das Paket Docker installiert ist!

Und Docker ist wirklich installiert und läuft?
 
  • Like
Reaktionen: Apfelsaft

Apfelsaft

Benutzer
Mitglied seit
19. Jan 2017
Beiträge
26
Punkte für Reaktionen
3
Punkte
3
Gerne ;)

Ups peinlich. Mir ist eben aufgefallen, dass ich tatsächlich Docker entfernt habe. Jetzt gehts!

Sorry und danke für die schnelle Hilfe!
 
  • Like
Reaktionen: geimist

Apfelsaft

Benutzer
Mitglied seit
19. Jan 2017
Beiträge
26
Punkte für Reaktionen
3
Punkte
3
Ich hab doch noch eine Frage.

OCR klappt soweit schon ganz gut. Nun will ich den Inhalt der PDF nach dem OCR-Vorgang durchsuchen, aber ohne dazu die PDF zu öffnen. Wie macht Ihr das.
Ich arbeite auf einem Mac. Im Finder gehts nicht oder zumindest nicht auf anhieb.
 
  • Like
Reaktionen: kulli

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Wenn die Datei auf deinem Mac liegt, findest du alles per Spotlight.
Verbindest du dich vom Mac via Netzwerkfreigabe zur DS, kann man auch Inhalte per Findersuche (nicht Spotlight) finden, sofern die PDF in einem von UniversalSearch indiziertem Ordner liegt (hier gab es aber letztens mal Probleme).

UniversalSearch als solches ist natürlich auf der DS direkt auch eine Möglichkeit.
 
  • Like
Reaktionen: Apfelsaft

Apfelsaft

Benutzer
Mitglied seit
19. Jan 2017
Beiträge
26
Punkte für Reaktionen
3
Punkte
3
Wir scannen vom Scanner direkt in ein Netzwerklaufwerk (SMB) auf der Synology. Ich greife dann per Freigabe (AFP) auf den Ordner zu.

Hab aber eben gesehen, dass der Ordner von UniversalSearch nicht indiziert wird/wurde. Hab das jetzt mal manuell aktiviert und werde nochmal testen.

Der Finder auf dem Mac und auch Spotlight finden den Inhalt aktuell nur wenn die Datei lokal auf dem Mac liegt.

Danke schon mal!
 

Apfelsaft

Benutzer
Mitglied seit
19. Jan 2017
Beiträge
26
Punkte für Reaktionen
3
Punkte
3
Es geht! Super geil!

Ich musste nur in UniversalSearch auf der Synology in den Einstellungen den output-Ordner von synOCR hinzufügen.
Danach die Verbindung zum Netzwerk-Laufwerk auf dem Mac trennen und neu aufbauen (command+K) und schon werden auch die Inhalte durchsucht.

Das wird mich massiv unterstützen im Arbeitsalltag!

Danke Dir!!!
 
  • Like
Reaktionen: geimist

mf_2

Benutzer
Mitglied seit
31. Aug 2008
Beiträge
152
Punkte für Reaktionen
4
Punkte
18
Ich habe auf meiner RS819 gerade Docker installiert - allerdings nicht als offizielles Paket, da Synology das nicht für die RS819 anbietet.
Wenn ich nun SynoOCR installieren möchte, so werden Abhängigkeiten geprüft, das fehlende Docker-Package wird bemerkt und die Installation bricht ab, weil das Docker-Package nicht installiert werden kann (da es das nicht für aarch64 sondern nur für x86_64 existiert). Das Package soll aber ja gar nicht installiert werden, weil ich Docker ja schon manuell installiert habe. Wie kann ich die Abhängigkeitsprüfung umgehen?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Ja, um auch inoffizielle Installationen erkennen zu können, prüft synOCR auf dem absoluten Pfad und nicht auf das Paket / SPK.

Wo liegt bei dir Docker?

Gibt es OCRmyPDF überhaupt als Image für ARM?
 

mf_2

Benutzer
Mitglied seit
31. Aug 2008
Beiträge
152
Punkte für Reaktionen
4
Punkte
18
Docker liegt bei mir in /docker
Ich dachte es gibt es als Image für ARM, sonst dürfte es über Docker doch gar nicht gefunden werden. Oder ist meine Annahme falsch?
So sieht das im Portainer aus:

Docker OCRmyPDF.png
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Docker liegt bei mir in /docker
Wie lautet der absolute Pfad für die Ausführbare Datei für Docker auf deiner DS?
/docker oder /docker/docker … (was sagt which docker in der Shell)?

Wenn ich den genauen Pfad habe, kann ich dir gerne mal ein Testbuild bereitstellen.


Zu OCRmyPDF:
Wie man in deinem Bild sehen kann, ist das Image für AMD64 (also x86_64) und nicht AArch64 / ARM64.
Du kannst es aber mal versuchen, selbst zu bauen (LINK).

edit:
es scheint auch fertige ARM64-Images zu geben: https://registry.hub.docker.com/search?q=OCRmyPDF&type=image&architecture=arm64
 
Zuletzt bearbeitet:


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat