Hallo,
ich versuche schon seit einiger Zeit, auch meine KontoauszĂĽge ĂĽber SynOCR automatisch benennen zu lassen. Leider geht das bei einer Bank nicht, die ihre AuszĂĽge als geschĂĽtzte PDFs ausgibt. Damit hatte ich mich schon abgefunden - logisch, dass geschĂĽtzte PDFs sich nicht auslesen lassen.
Allerdings habe ich nun für andere Aufgaben ein Programm in Betrieb, dass bei einem zufälligen Versuch ganz selbstverständlich eine ungeschützte OCR-Version eines solchen Dokuments erzeugt hat. Offenbar geht diese Software anders an die Sache als OCRmyPDF. Die Sicherheitseinstellungen des betroffenen Originaldokuments lassen Drucken und Kopieren von Text auch zu, nur andere Funktionen sind gesperrt. Für mich ist damit logisch, dass der Inhalt des Dokuments eigentlich schon ausgelesen werden kann (möglicherweise arbeitet meine Desktop-Software hier mit einem PDF-Drucker unter der Haube).
Grundsätzlich kommt man also an den Inhalt dieser PDFs. Vielleicht ja auch zum Taggen durch synOCR? Gibt es irgendeine Möglichkeit in synOCR, sich bei solchen Dokumenten nur auf das Auslesen des (les- und kopierbar vorhandenen) Texts zu konzentrieren? Also eine Funktion, die synOCR dazu bringt, sich bei geschützten Dokumenten nur auf das Taggen zu konzentrieren? Den OCRmyPDF-Schalter "-s" für PDF-Seiten mit schon vorhandenem Text habe ich schon gesetzt, das ändert allerdings nichts für meinen Fall.
Viele GrĂĽĂźe
Favi