OCR nachträglich

ThomasKue

Benutzer
Mitglied seit
27. Nov 2014
Beiträge
127
Punkte für Reaktionen
13
Punkte
18
Hallo,
ich habe eine Unzahl von PDF Dokumenten auf meiner NAS liegen (Ordner Orga). Ich würde die gerne per OCR durchsuchbar machen.
Hat jemand einen Tip, wie ich meine PDF's nachträglich mit OCR durchsuchbar machen kann ?
Danke im Voraus !
T.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.517
Punkte für Reaktionen
1.354
Punkte
234
Dann funktioniert die Lösung über synOCR. Du hast zwei Möglichkeiten:
  1. du kannst alle deine Dokumente in den Eingangsordner von synOCR legen (somit kannst du keine Ordnerhierarchie aufarbeiten). Alles liegt nachher in einem Ordner, oder du lässt Regeln anwenden.
  2. wenn du deine bisherige Ordnerhierachie beibehalten möchtest, benötigst du dieses Hilfsskript. Der gesamte Ablauf geht dann in 3 Schritten. Eine Anleitung findest du HIER.
Bei Fragen, fragen …
 

ThomasKue

Benutzer
Mitglied seit
27. Nov 2014
Beiträge
127
Punkte für Reaktionen
13
Punkte
18
Hallo,
so nun endlich mal Zeit mich dem Thema weiter zumachen !
Jetzt hab ich aber mal eine blöde Frage:
Ich habe synOCR erfolgreich am laufen (muss natürlich noch Pfade definieren usw.). Jetzt meine blöde Frage: Ich muss aber auch noch OCRMYPDF (Docker) installieren ??????? Oder nur synOCR....bin jetzt verunsichert.....
Gibt es hier eine Reihenfolge ? Also zuerst OCRMYPDF und dann synOCR oder egal ?
Danke im Voraus!!
 

ThomasKue

Benutzer
Mitglied seit
27. Nov 2014
Beiträge
127
Punkte für Reaktionen
13
Punkte
18
Hallo, jetzt muss ich nochmals um Hilfe fragen....
Also, Pfade usw. bei synOCR konfiguriert und es läuft auch ohne Probleme....dachte ich !
Wenn ich mir das log-file anschaue, steht da folgende Fehlermeldung:

➜ OCRmyPDF-LOG:
WARNING: Error loading config file: .dockercfg: $HOME is not defined
reading file from standard input
1 skipping all processing on this page
Postprocessing...
Optimize ratio: 1.00 savings: 0.0%
Output sent to stdout
← OCRmyPDF-LOG-END

Gehe mal davon aus, dass da was nicht mit DOCKER funktioniert? Muss ich das u.g. dockerimage runterladen (bei Docker)?

Bildschirmfoto 2022-01-08 um 12.27.23.png


Event. jemand Info hier ? Kann auch gerne das ganze log-file hier zeigen....

Danke vorab!
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.517
Punkte für Reaktionen
1.354
Punkte
234
Wie sieht denn deine PDF im Ausgabeverzeichnis aus?
Die ist doch bestimmt schon fertig, oder gibt es damit Probleme?

Du brauchst manuell kein Image laden und die Fehlermeldung ist für die Funktion nicht relevant.
 

ThomasKue

Benutzer
Mitglied seit
27. Nov 2014
Beiträge
127
Punkte für Reaktionen
13
Punkte
18
PDF's liegen im Ausgabeverzeichniss, auch mit eingestellter Namenklatur...funktioniert einwandfrei !
DANKE für die Info, dass die Fehlermeldung nicht relevant ist.
JETZT hab ich noch eine (hoffentlich) letzte Frage:
Leider zeigt die Suche im Finder (Mac) kein Ergebnis wenn ich nach einem Inhalt der prozessierten PDF's suche ? Muss ich erst eine Indizierung aller Dateien machen (unter Universal suche) ??

p.s. grosses Lob an Stephan, einfach super wie schnell und kompetent geantwortet wird! Genial....
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.517
Punkte für Reaktionen
1.354
Punkte
234
Wenn ich mich recht erinnere, muss der entsprechende Ordner (wo die PDF liegt) in Universal Search aufgenommen werden. Wichtig: die Suche muss auch das Kriterium 'Dokument' eingeschlossen haben (= Volltextsuche).

Bildschirmfoto 2022-01-08 um 14.15.40.png

Die Volltextsuche funktioniert dann auch im Finder, aber nicht in Spotlight.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat