Ich habe da ein PDF das will einfach nicht...
Hat eine eine Idee wie ich das beheben kann? Es ist ein PDF mit nicht sonderlich viel Text. Es ist quasi eine Tabelle mit ein paar Einträgen.
Das PDF hat am Ende jedoch überhaupt nichts zu Suchen drin. Also hat er wohl gar nichts erkannt.
Ich habe schon --force-ocr aktiviert und auch das zweite Docker-Image ausprobiert das hier im Thread Mal empfohlen wurde.
Meine alte OCR Lösung wo aber immer ein Windowss Computer laufen muss hat das ohne Probleme indexiert. Also am PDF File kann es eigentlich nicht liegen.
Code:
INFO ocrmypdf._exec.tesseract - 1 [tesseract] Too few characters. Skipping this page
INFO ocrmypdf._exec.tesseract - 1 [tesseract] Too few characters. Skipping this page
ERROR ocrmypdf._exec.tesseract - 1 [tesseract] Error during processing.
Hat eine eine Idee wie ich das beheben kann? Es ist ein PDF mit nicht sonderlich viel Text. Es ist quasi eine Tabelle mit ein paar Einträgen.
Das PDF hat am Ende jedoch überhaupt nichts zu Suchen drin. Also hat er wohl gar nichts erkannt.
Ich habe schon --force-ocr aktiviert und auch das zweite Docker-Image ausprobiert das hier im Thread Mal empfohlen wurde.
Meine alte OCR Lösung wo aber immer ein Windowss Computer laufen muss hat das ohne Probleme indexiert. Also am PDF File kann es eigentlich nicht liegen.