synOCR synOCR - GUI für OCRmyPDF

Hallo,
ja das geht. Die einfachste Methode ist:
- Diese pdf nochmal in den Input Ordner stellen.
- Im GUI unter OCR Optionen den Parameter -s... auf -f... stellen.
- Dann synOCR Durchlauf manuell starten.

Gruß Karsten

PS: Nicht vergessen wieder umzustellen.
 
Ich hatte auch schon Problem mit der Standard-Renderengine von OCRmyPDF. Die wurde irgendwann mal geändert. Ich nutze seit dem zusätzlich den Parameter --pdf-renderer hocr (aber auch das Image 12.7.2). Seit dem klappt es.
 
  • Like
Reaktionen: !&all
@geimist - Stephan - kannst Du bitte detaillierter schreiben, wo man diesen Parameter einsetzen soll?
 
synOCR aufrufen, zu Konfiguration wechseln und dann bei OCR-Optionen hinzufügen; Standard dort sollte -srd -l deu+eng sein.
 
  • Like
Reaktionen: geimist
Das OCRmyPDF Image von jbarlow83 manuell in der Docker GUI lassen und anschließend in deinem Profil auswählen.
 
Ich hatte auch schon Problem mit der Standard-Renderengine von OCRmyPDF. Die wurde irgendwann mal geändert. Ich nutze seit dem zusätzlich den Parameter --pdf-renderer hocr (aber auch das Image 12.7.2). Seit dem klappt es.
War das auf mein Problem bezogen oder noch als Antwort auf die Diskussion vorher? Wenn zu mir, was genau würde das bewirken? Lieben Dank vorab!
 
Zuletzt bearbeitet:
  • Like
Reaktionen: !&all und Struppix
Super, vielen Dank. Dann werde ich zusätzlich mal mit dem alternativen Renderer experimentieren. Danke für die guten Tips!
 
Zuletzt bearbeitet von einem Moderator:
Hallo zusammen,

würde gerne auf einer DS223 das Tool "synOCR" einsetzen. Folgendes ist jetzt installiert:
  • jbarlow83/ocrmypdf:latest: Habe ich getestet und funktioniert.
  • synOCR_DSM7_v1.4.1.spk: s. Logfiles anbei.

Es gibt da anscheinend diverse Probleme mit der verwendeten Python Version in Kombination mit der aarch64 Architecture. Hat jemand "synOCR" schon mal auf einer DS223 oder einer aarch64 Architecture zum laufen bekommen?

Gruß Christian
 

Anhänge

Herzlich willkommen hier im Forum Christian :)

Das ist interessant und müssten wir uns mal genauer ansehen. Kannst du mal das Loglevel auf 2 stellen (in der GUI ganz unten). Das neue Log nach dem nächsten Programmlauf kannst du mir auch gerne persönlich hochladen.
 
Zuletzt bearbeitet:
  • Like
Reaktionen: Gthorsten
Die Ursache zu dem Problem von @maxChris:
Eine Abhängigkeit des Pythonmoduls 'dateparser' war nicht für aarch64 verfügbar. Glücklicherweise wies mich der Entwickler von dateparser darauf hin, dass die Abhängigkeit ab Python3.9 nicht mehr besteht. Python3.9 steht ja im aktuellen DSM auch seitens Synology im Paketzentrum zur Verfügung. Ich hab synOCR jetzt so angepasst (ab v1.4.2), dass auf einer DS mit aarch64 CPU auf Python3.9 zurückgegriffen wird. Das ist als zusätzliche Abhängigkeit natürlich in dem Fall selbst zu installieren. Damit lief die Installation jetzt fehlerfrei durch.
 
  • Like
Reaktionen: Gthorsten
Ok, dann müssen wir mal die anderen Module kontrollieren. Und bei neuen Darauf achten. Mit war gar nicht bewusst das es so viele unterschiedliche Architekturen gibt wo synOCR läuft. Hatte beim entwickeln des Moduls mal was gelesen, aber keine Gedanken darüber gemacht
 
Alles andere lief fehlerfrei durch. Docker (OCRmyPDF) ist derzeit eigentlich nur auf x86_64 und aarch64 ein Thema für uns.
dateparser hat in Python < 3.9 eine Abhängigkeit zu backports.zoneinfo - und das scheint es nicht für aarch64 zu geben.
 
  • Like
Reaktionen: Gthorsten
@geimist: Besten Dank für die schnelle Lösung! Es freut mich sehr, dass es doch noch auf einem aarch64 System funktioniert.
 
  • Love
Reaktionen: geimist
Hallo ich bin super zufrieden mit OCRmyPDF, hab schon viele PDFs gescannt und durchlaufen lassen.
Manchmal bin ich unterwegs und suche z.B ein Dokument wie z.B Kaufvertrag, wie findet ihr das Dokument oder wie macht ihr das ? Geht ihr in die APP Drive und sucht ? Wenn ihr jetzt unterwegs seit ? oder wie macht ihr das am Mac ?

Irgendwie finde ich die Dateien nicht. Universell search neue idendizieren habe ich gemacht oder hilft euch das tool " ALFRED"? Über eine Antwort würde ich mich freuen
 
Universal Search (und somit auch Drive) findet meine Dokumente. Auf dem Mac über den Finder über eine SMB-Freigabe im Suchfeld des Finders (nicht Spotlight).

Hast du in Universal Search auch die Volltextsuche für Dokumente im gewünschten Ordner aktiviert?
 
"Dateiname und Inhalt" ist schon die korrekte Einstellung. Der Textlayer im PDF selbst ist aber korrekt? Ich meine: kannst du ein PDF öffnen und darin nach einem Stichwort mit dem PDF-Betrachter suchen? Wenn ja, kann es ja nur an der Indizierung liegen.

PS: das Indizieren von Zahlen muss man Universal Search explizit aktivieren.
 
Hier mal ein Bugfix-Release 1.4.2.

Das Release der Version 1.4.2 findet ihr hier auf meinem Server (für DSM6 & DSM7): https://geimist.eu/synOCR/

DOWNLOAD:

📦 SPK DSM6

📦 SPK DSM7




1.4.2 [2023-07-26]
BUGFIXES:

- [SHELL] Bugfix bei der Erstellung der Python-Umgebung unter aarch64 (hier wird jetzt zusätzlich Python 3.9 benötigt)
VERBESSERUNG:
- [SHELL] Entfernung von abschließenden Leerzeichen und Tabulatoren in YAML-Regeln zur Verbesserung der Kompatibilität
- [SHELL] Verbesserung der Fehlerbehandlung bei der Datumssuche in Python
- [SHELL] Logging verbessert
- [SHELL] Prüfung der YAML-Regeln verbessert
 
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat