synOCR synOCR nach Mac Vorschau Bearbeitung nur noch Fragezeichen statt Buchstaben im Text

tufkabb · 23. Dez 2021

Hallo, ich nutze synOCR schon lange und gerne. Von einem HP Multifunktionsdrucker als PDF gescannt landen alle PDFs auf der DS und werden dort mit synOCR bearbeitet. Klappt prima soweit. Die Dateien werden dann meist mit der MacOS Vorschau weiterverarbeitet.

Allerdings ist mir immer mal wieder aufgefallen, dass manche PDFs die direkt nach synOCR noch einwandfrei waren, irgendwann nur noch Fragezeichen statt Buchstaben enthielten. Also wenn man dann den Text aus der PDF rauskopierte waren dort statt Buchstaben nur noch Fragezeichen. Auch die Textsuche in diesen PDF Dateien funktioniert dann nicht mehr.

Es hat eine Weile gedauert bis ich die Ursache fand. Die PDF ist anfangs nach synOCR noch in Ordnung. Wenn man aber diese PDF mit der Mac Vorschau öffnet, und zB. bei mehrseitigen Dokumenten eine Seite rauslöscht oder hinzufügt, die PDF anschliessend neu abspeichert, dann ist der Textlayer der PDF kaputt und enthält nur noch Fragezeichen. Das ist hier jedesmal reproduzierbar.

Nach etwas rumprobieren und Doku lesen, habe ich eine Lösung für mich gefunden damit das nicht mehr passiert. synOCR nutzt ja "unter der Haube" OCRmyPDF. In der Doku von OCRmyPDF wird erwähnt, dass in dem Paket zwei PDF Renderer enthalten sind ("sandwich" und "hocr"). Als Standard Renderer wird die neue Version "sandwich" verwendet. Und genau damit erzeugte PDF Dateien verursachen bei mir das oben erwähnte Problem. Nachdem ich auf die ältere Version des PDF Renderers ("hocr") umgestellt hatte war das Problem verschwunden (siehe angehängten Screenshot).

Vielleicht hilfts ja dem einen oder anderen Mac User.

geimist · 23. Dez 2021

Sehr interessant. Das konnte ich noch nicht beobachten, oder war mir noch nicht aufgefallen. Das solltest du mal auch jbarlow83, dem Entwickler von ocrmypdf, mitteilen.

PS: ich konnte es hier auch nachstellen. Vielen Dank für den Hinweis.

tufkabb · 23. Dez 2021

Man kann übrigens bereits defekte PDFs dadurch reparieren, wenn man sie mit den Einstellungen aus dem obigen Screenshot erneut durch synOCR laufen lässt.

geimist · 23. Dez 2021

Guckst du hier: https://ocrmypdf.readthedocs.io/en/latest/cookbook.html#redo-existing-ocr

tufkabb · 23. Dez 2021

Hallo Stephan, die --redo-ocr Option hatte ich noch gar nicht verwendet.
Ich habe standardmässig die -f Option (OCR erzwingen) aktiv, deshalb klappte das neue OCR bei mir auch ohne --redo-ocr
Danke für den Tipp.