synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.594
Punkte für Reaktionen
1.438
Punkte
234
Nicht direkt. Weil es nicht dem regulären Workflow entspricht, gibt es dafür keine eingebaute Funktion. Aber weil du nicht der erste bist, der das braucht und ich immer lieb sein will, gibt es ein Skript dafür :)

Hier der Artikel in den FAQ.
 
  • Like
Reaktionen: luddi und Ghost108

kdonbkda

Benutzer
Mitglied seit
06. Mai 2022
Beiträge
2
Punkte für Reaktionen
0
Punkte
1
Ich habe seit kurzem das Problem, dass die Dateien sehr groß werden. Aus einer ursprünglichen 16,8kb wird eine 800kb-Datei. Betrifft original PDFs und Scans. Die original-PDFs haben nur keinen durchsuchbaren Text bzw. Windows oder die Synology erkennt es nicht. Betrifft zwar nicht die GUI aber ich habe die Hoffnung, dass schon andere das gleiche Problem hatten und eine Lösung mit den Befehlen parat haben.

Folgende OCR-Optionen habe ich.
--force-ocr -rd -l deu
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.594
Punkte für Reaktionen
1.438
Punkte
234
Wenn es von alleine auftrat, kannst mal als Test eine ältere PDF erneut durchlaufen lassen. Wenn das bei der auch der Fall ist, dass sie aufgebläht wird, könntest du mal ein älteres OCRmyPDF-Image (z.B. 12.7.2) in der Docker-GUI laden und anschließend in deinem synOCR Profil auswählen.

Es gibt auch Optimierungsparameter. Es lohnt sich z.B. Dokumente direkt in schwarzweiß zu scannen (haben also nur 1 Bit Farbtiefe).
OCRmyPDF hat auch eine schöne Dokumentation. Da kannst du auch mal stöbern.

So sehen meine Parameter aus:
Code:
--remove-background --rotate-pages --rotate-pages-threshold 5 -dc --skip-text --clean-final -l deu --jpeg-quality 70 --png-quality 70 --jbig2-lossy --optimize 3 --pdf-renderer hocr

Bitte berichte, ob und was geholfen hat.
 

Ghost108

Benutzer
Mitglied seit
27. Jun 2015
Beiträge
1.268
Punkte für Reaktionen
74
Punkte
68
Frage: Besteht die Möglichkeit leere Seiten entfernen zu lassen dorch synOCR?
Problem: Wenn ich Text in einer synOCR erstellen PDF markiere, kopiere und dann z.B. in Word einfügen möchte, sieht das Resultat wie folgt aus:
􏰀􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀􏰀􏰀 􏰀􏰀􏰀 􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀􏰀

Woran liegt das?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.594
Punkte für Reaktionen
1.438
Punkte
234
  1. Das ist gar nicht so einfach und leider bietet OCRmyPDF die Funktion von Haus aus auch nicht (obwohl von so manchem User gewünscht). Gerade bei Scans sind die Seiten ja nicht zu 100% leer. Es muss also ein Schwellwert für die Deckung definiert und geprüft werden. Es gibt Software, mit der man das machen kann, allerdings habe ich es mit DSM-Bordmitteln noch nicht geschafft.
    Ich nutze dafür die entsprechende Hardwarefunktion meines Brotherscanners, was sehr gut funktioniert (aber ja, ich weiß: nicht jeder Scanner kann das …)
  2. So ein Problem hatte ich auf dem Mac auch schon mal. Bitte setze mal den folgenden OCR-Parameter: --pdf-renderer hocr
    Ggf. würde auch ein älteres OCRmyPDF-Image (v12.7.2) für Abhilfe sorgen.
 

Ghost108

Benutzer
Mitglied seit
27. Jun 2015
Beiträge
1.268
Punkte für Reaktionen
74
Punkte
68
Das ist mein Scan:

Bildschirmfoto 2022-05-09 um 21.02.29.png

Wenn ich diese EINE ZEILE markiere, kopiere und einfüge, sieht es nun wie folgt aus:

FürdieerfolgreicheTeilnahme

Viele Absätze, viele Leerzeichen, aber keine Leerzeichen wo sie hingehören :(
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.594
Punkte für Reaktionen
1.438
Punkte
234
Wie gesagt: Das ist ja kein Problem von synOCR, sondern von OCRmyPDF.

Welches Image nutzt du jetzt?
Welche OCR-Parameter?

Du kannst mir gern ein Log und wenn du möchtest, auch die Quelldatei hochladen (Link in meiner Signatur).
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.594
Punkte für Reaktionen
1.438
Punkte
234
Damit hast du mir schon vieles beantwortet, was ich im LOG nachgesehen hätte.

Hast du das schon probiert?:
2. … Ggf. würde auch ein älteres OCRmyPDF-Image (v12.7.2) für Abhilfe sorgen.
(über die Docker-GUI laden und dann in der synOCR-GUI in deinem Profil auswählen)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.594
Punkte für Reaktionen
1.438
Punkte
234
Ist das nur bei diesem Dokument so, oder auch bei anderen?
Schon mal einen anderen PDF-Viewer versucht?
Ist das ein gescanntes Dokument, oder enthielt das schon vor der synOCR-Verarbeitung digitalen Text? Dann mal den Parameter -s durch -f ersetzen, was eine komplette Neuerkennung erzwingt.
 

Ghost108

Benutzer
Mitglied seit
27. Jun 2015
Beiträge
1.268
Punkte für Reaktionen
74
Punkte
68
das ist ein gescanntes Dokument, welches noch kein OCR bekommt hat.
Tatsächlich klappt es mit dem Adobe Reader tadellos.
Hatte unter macOS "Vorschau" verwendet. Da kommt es zu Problemen
 

kdonbkda

Benutzer
Mitglied seit
06. Mai 2022
Beiträge
2
Punkte für Reaktionen
0
Punkte
1
Wenn es von alleine auftrat, kannst mal als Test eine ältere PDF erneut durchlaufen lassen. Wenn das bei der auch der Fall ist, dass sie aufgebläht wird, könntest du mal ein älteres OCRmyPDF-Image (z.B. 12.7.2) in der Docker-GUI laden und anschließend in deinem synOCR Profil auswählen.

Es gibt auch Optimierungsparameter. Es lohnt sich z.B. Dokumente direkt in schwarzweiß zu scannen (haben also nur 1 Bit Farbtiefe).
OCRmyPDF hat auch eine schöne Dokumentation. Da kannst du auch mal stöbern.

So sehen meine Parameter aus:
Code:
--remove-background --rotate-pages --rotate-pages-threshold 5 -dc --skip-text --clean-final -l deu --jpeg-quality 70 --png-quality 70 --jbig2-lossy --optimize 3 --pdf-renderer hocr

Bitte berichte, ob und was geholfen hat.
Hi. Ich bin noch am austesten wegen der Parameter. Bisher habe ich aber noch keine Erfolg gehabt.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.594
Punkte für Reaktionen
1.438
Punkte
234
Du kannst mir auch gern mal eine Beispieldatei hochladen, die bei dir zu diesem Effekt führt (Link in meiner Signatur).
 

driftkingisback

Benutzer
Mitglied seit
17. Sep 2020
Beiträge
122
Punkte für Reaktionen
4
Punkte
18
Hallo, ich habe jetztm eine Pdfs alle gescannt und auf der NAS unter Dokumente abgespeichert.(mit OCR)
Wie macht ihr das um jetzt schnelle PDfs wiederzufinden? z.B das Gewerbeamt möchte meine E-ORI Nummer haben . Wo gebe ich jetzt den Suchbegriff z.B " EORI " ein..... Das er meine kompletten Computer und NAS durchsucht beim Mac OS, muss ich was bei einstellungen ändern ??

Andere Variante wenn ich unterwegs bin mit dem Handy und will nach einem schnellen Dokument suchen was auf der NAS liegt.Irgendwie werden Dokumente nicht gefunden

Laptop: Mac
Handy Iphone und APP DS Files

Für eine Antwort würde ich mich freuen
 

MrNeon

Benutzer
Mitglied seit
10. Mai 2011
Beiträge
75
Punkte für Reaktionen
5
Punkte
8
Hmmm … ich löse das mit Drive (Dokumente werde Indexiert) und sind dann mit Drive auffindbar …

schöner wird es natürlich mit einem DMS …
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.594
Punkte für Reaktionen
1.438
Punkte
234
Ja, die Drive-App kann auch auf den Index von Universal Search zugreifen (genau, wie der Finder in macOS im Netzlaufwerk). Wie @MrNeon schon schreibt, ist es Voraussetzung, dass der Dokumentenordner auch für die Volltextsuche konfiguriert ist. Für die Drive-App muss er ein Teamordner sein, oder sich darin befinden.
 

Glausehh

Benutzer
Mitglied seit
26. Mai 2022
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Hallo erstmal, neu hier und komme nicht mehr weiter.
Rackstation 818+ und Synocr manuell installiert. in Synocr alle Pfade angegeben und auf Grün. Aufgabenplaner mit root Berechtigung erstellt wie angegeben ausgeführt.

Im log folgende Fehlermeldung

WARNING: Error loading config file: .dockercfg: $HOME is not defined
Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Get "http://%2Fvar%2Frun%2Fdocker.sock/v1.24/containers/jbarlow83/ocrmypdf:latest/json": dial unix /var/run/docker.sock: connect: permission denied
used image (created): jbarlow83/ocrmypdf:latest ()

Habe bei geimist die entsprechenden Log Fehlermeldungen gesehen, aber kann damit nichts anfangen.
Wie muss ich in DSM7 diese Berechtigungen für den benannten Pfad erstellen, damit diese Fehlermeldung eliminiert wird.

Danke für Hints.

Gruess Hans
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.594
Punkte für Reaktionen
1.438
Punkte
234
Herzlich willkommen hier im Forum 😃

Bei der ersten Zeile handelt es sich um die bekannt und unbedeutende Fehlermeldung.

Aber hier:
Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Get "http://%2Fvar%2Frun%2Fdocker.sock/v1.24/containers/jbarlow83/ocrmypdf:latest/json": dial unix /var/run/docker.sock: connect: permission denied

… sieht mir das sehr nach fehlenden root-Rechten aus.
Steht auch im Log bei synOCR-user: root?
 

Glausehh

Benutzer
Mitglied seit
26. Mai 2022
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Hey Stephan
Im Log steht gar nichts von synOCR-user: diese Inhalt gibt es nicht.
Danke, wenn du mir sagen kannst, wo ich diese Berechtigungen für den synOCR user einstellen kann.


Gruss Hans
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat