synOCR synOCR - GUI für OCRmyPDF

geimist · 05. Mai 2022

Nicht direkt. Weil es nicht dem regulären Workflow entspricht, gibt es dafür keine eingebaute Funktion. Aber weil du nicht der erste bist, der das braucht und ich immer lieb sein will, gibt es ein Skript dafür

Hier der Artikel in den FAQ.

kdonbkda · 06. Mai 2022

Ich habe seit kurzem das Problem, dass die Dateien sehr groß werden. Aus einer ursprünglichen 16,8kb wird eine 800kb-Datei. Betrifft original PDFs und Scans. Die original-PDFs haben nur keinen durchsuchbaren Text bzw. Windows oder die Synology erkennt es nicht. Betrifft zwar nicht die GUI aber ich habe die Hoffnung, dass schon andere das gleiche Problem hatten und eine Lösung mit den Befehlen parat haben.

Folgende OCR-Optionen habe ich.
--force-ocr -rd -l deu

geimist · 06. Mai 2022

Wenn es von alleine auftrat, kannst mal als Test eine ältere PDF erneut durchlaufen lassen. Wenn das bei der auch der Fall ist, dass sie aufgebläht wird, könntest du mal ein älteres OCRmyPDF-Image (z.B. 12.7.2) in der Docker-GUI laden und anschließend in deinem synOCR Profil auswählen.

Es gibt auch Optimierungsparameter. Es lohnt sich z.B. Dokumente direkt in schwarzweiß zu scannen (haben also nur 1 Bit Farbtiefe).
OCRmyPDF hat auch eine schöne Dokumentation. Da kannst du auch mal stöbern.

So sehen meine Parameter aus:

Code:

--remove-background --rotate-pages --rotate-pages-threshold 5 -dc --skip-text --clean-final -l deu --jpeg-quality 70 --png-quality 70 --jbig2-lossy --optimize 3 --pdf-renderer hocr

Bitte berichte, ob und was geholfen hat.

Ghost108 · 09. Mai 2022

Frage: Besteht die Möglichkeit leere Seiten entfernen zu lassen dorch synOCR?
Problem: Wenn ich Text in einer synOCR erstellen PDF markiere, kopiere und dann z.B. in Word einfügen möchte, sieht das Resultat wie folgt aus:

􏰀􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀

Woran liegt das?

geimist · 09. Mai 2022

Das ist gar nicht so einfach und leider bietet OCRmyPDF die Funktion von Haus aus auch nicht (obwohl von so manchem User gewünscht). Gerade bei Scans sind die Seiten ja nicht zu 100% leer. Es muss also ein Schwellwert für die Deckung definiert und geprüft werden. Es gibt Software, mit der man das machen kann, allerdings habe ich es mit DSM-Bordmitteln noch nicht geschafft.
Ich nutze dafür die entsprechende Hardwarefunktion meines Brotherscanners, was sehr gut funktioniert (aber ja, ich weiß: nicht jeder Scanner kann das …)
So ein Problem hatte ich auf dem Mac auch schon mal. Bitte setze mal den folgenden OCR-Parameter: --pdf-renderer hocr
Ggf. würde auch ein älteres OCRmyPDF-Image (v12.7.2) für Abhilfe sorgen.

Ghost108 · 09. Mai 2022

Das ist mein Scan:

Bildschirmfoto 2022-05-09 um 21.02.29.png

Wenn ich diese EINE ZEILE markiere, kopiere und einfüge, sieht es nun wie folgt aus:

FürdieerfolgreicheTeilnahme

Viele Absätze, viele Leerzeichen, aber keine Leerzeichen wo sie hingehören

geimist · 09. Mai 2022

Wie gesagt: Das ist ja kein Problem von synOCR, sondern von OCRmyPDF.

Welches Image nutzt du jetzt?
Welche OCR-Parameter?

Du kannst mir gern ein Log und wenn du möchtest, auch die Quelldatei hochladen (Link in meiner Signatur).

Ghost108 · 09. Mai 2022

nutze "latest".
OCR Parameter:

-s -l deu+eng --pdf-renderer hocr

Log Level Standard oder Debug?

geimist · 09. Mai 2022

Damit hast du mir schon vieles beantwortet, was ich im LOG nachgesehen hätte.

Hast du das schon probiert?:

geimist schrieb:
2. … Ggf. würde auch ein älteres OCRmyPDF-Image (v12.7.2) für Abhilfe sorgen.

(über die Docker-GUI laden und dann in der synOCR-GUI in deinem Profil auswählen)

Ghost108 · 09. Mai 2022

ja, gerade versucht. Ergebnis bleibt gleich

geimist · 09. Mai 2022

Ist das nur bei diesem Dokument so, oder auch bei anderen?
Schon mal einen anderen PDF-Viewer versucht?
Ist das ein gescanntes Dokument, oder enthielt das schon vor der synOCR-Verarbeitung digitalen Text? Dann mal den Parameter -s durch -f ersetzen, was eine komplette Neuerkennung erzwingt.

Ghost108 · 10. Mai 2022

das ist ein gescanntes Dokument, welches noch kein OCR bekommt hat.
Tatsächlich klappt es mit dem Adobe Reader tadellos.
Hatte unter macOS "Vorschau" verwendet. Da kommt es zu Problemen

kdonbkda · 16. Mai 2022

geimist schrieb:
Wenn es von alleine auftrat, kannst mal als Test eine ältere PDF erneut durchlaufen lassen. Wenn das bei der auch der Fall ist, dass sie aufgebläht wird, könntest du mal ein älteres OCRmyPDF-Image (z.B. 12.7.2) in der Docker-GUI laden und anschließend in deinem synOCR Profil auswählen.

Es gibt auch Optimierungsparameter. Es lohnt sich z.B. Dokumente direkt in schwarzweiß zu scannen (haben also nur 1 Bit Farbtiefe).
OCRmyPDF hat auch eine schöne Dokumentation. Da kannst du auch mal stöbern.

So sehen meine Parameter aus:

Code:

--remove-background --rotate-pages --rotate-pages-threshold 5 -dc --skip-text --clean-final -l deu --jpeg-quality 70 --png-quality 70 --jbig2-lossy --optimize 3 --pdf-renderer hocr

Bitte berichte, ob und was geholfen hat.

Hi. Ich bin noch am austesten wegen der Parameter. Bisher habe ich aber noch keine Erfolg gehabt.

geimist · 17. Mai 2022

Du kannst mir auch gern mal eine Beispieldatei hochladen, die bei dir zu diesem Effekt führt (Link in meiner Signatur).

driftkingisback · 25. Mai 2022

Hallo, ich habe jetztm eine Pdfs alle gescannt und auf der NAS unter Dokumente abgespeichert.(mit OCR)
Wie macht ihr das um jetzt schnelle PDfs wiederzufinden? z.B das Gewerbeamt möchte meine E-ORI Nummer haben . Wo gebe ich jetzt den Suchbegriff z.B " EORI " ein..... Das er meine kompletten Computer und NAS durchsucht beim Mac OS, muss ich was bei einstellungen ändern ??

Andere Variante wenn ich unterwegs bin mit dem Handy und will nach einem schnellen Dokument suchen was auf der NAS liegt.Irgendwie werden Dokumente nicht gefunden

Laptop: Mac
Handy Iphone und APP DS Files

Für eine Antwort würde ich mich freuen

MrNeon · 25. Mai 2022

Hmmm … ich löse das mit Drive (Dokumente werde Indexiert) und sind dann mit Drive auffindbar …

schöner wird es natürlich mit einem DMS …

geimist · 25. Mai 2022

Ja, die Drive-App kann auch auf den Index von Universal Search zugreifen (genau, wie der Finder in macOS im Netzlaufwerk). Wie @MrNeon schon schreibt, ist es Voraussetzung, dass der Dokumentenordner auch für die Volltextsuche konfiguriert ist. Für die Drive-App muss er ein Teamordner sein, oder sich darin befinden.

Glausehh · 26. Mai 2022

Hallo erstmal, neu hier und komme nicht mehr weiter.
Rackstation 818+ und Synocr manuell installiert. in Synocr alle Pfade angegeben und auf Grün. Aufgabenplaner mit root Berechtigung erstellt wie angegeben ausgeführt.

Im log folgende Fehlermeldung

WARNING: Error loading config file: .dockercfg: $HOME is not defined
Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Get "http://%2Fvar%2Frun%2Fdocker.sock/v1.24/containers/jbarlow83/ocrmypdf:latest/json": dial unix /var/run/docker.sock: connect: permission denied
used image (created): jbarlow83/ocrmypdf:latest ()

Habe bei geimist die entsprechenden Log Fehlermeldungen gesehen, aber kann damit nichts anfangen.
Wie muss ich in DSM7 diese Berechtigungen für den benannten Pfad erstellen, damit diese Fehlermeldung eliminiert wird.

Danke für Hints.

Gruess Hans

geimist · 26. Mai 2022

Herzlich willkommen hier im Forum

Bei der ersten Zeile handelt es sich um die bekannt und unbedeutende Fehlermeldung.

Aber hier:

Glausehh schrieb:
Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Get "http://%2Fvar%2Frun%2Fdocker.sock/v1.24/containers/jbarlow83/ocrmypdf:latest/json": dial unix /var/run/docker.sock: connect: permission denied

… sieht mir das sehr nach fehlenden root-Rechten aus.
Steht auch im Log bei synOCR-user: root?

Glausehh · 26. Mai 2022

Hey Stephan
Im Log steht gar nichts von synOCR-user: diese Inhalt gibt es nicht.
Danke, wenn du mir sagen kannst, wo ich diese Berechtigungen für den synOCR user einstellen kann.

Gruss Hans

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat