synOCR synOCR - GUI für OCRmyPDF

synfor · 19. Dez. 2021

Die Shell benutzt doch nur normale Platzhalter und kein Regex oder? Der Punkt steht also nur für sich selbst.

Ohne den Punkt trifft das auch auf eine Datei xpdf zu.

FrAntje · 19. Dez. 2021

Afu meiner DS918+ gab rd das Paket synOCR nicht, nur synOTR. Habe es dann hier https://www.cphub.net/?id=37
heruntergeladen und manuell installiert. Scheint auch zu klappen

Wenn ich es jedoch starte, kommt das hier

geimist · 19. Dez. 2021

FrAntje schrieb:
Afu meiner DS918+ gab rd das Paket synOCR nicht,…

Ja, das liegt leider an cphub. Aber du hast dir zu helfen gewusst

Wenn ich es jedoch starte, kommt das hier

Ist unter Systemsteuerung ➜ Sicherheit dieser Haken gesetzt: Schutz gegen Cross-Site-Request-Forgery-Attacken verbessern
(sollte so sein - wird in einer späteren Version nicht mehr relevant sein)
Greifst du über den Reverseproxy auf den DSM zu?
(kann zu Problemen führen)
Browsercache leeren / inkognitomodus / anderen Browser testen
DS mal neu gestartet?

FrAntje · 19. Dez. 2021

Habe die Cross Site Request deaktiviert
Kein Reverse
Browser gewechselt, PC gewechselt
Neu gestartet.

Unter DSM 7 auf 918+ bleibt der Fehler
Unter DSM 6 auf 920+ klappt es jedoch (synOCR V 1.1.2)

geimist · 19. Dez. 2021

FrAntje schrieb:
Habe die Cross Site Request deaktiviert

Der Haken sollte gesetzt sein.
Nach dem Ändern, zunächst ab- und wieder anmelden.

War synOCR vor dem Update auf DSM7 bereits installiert?

FrAntje · 19. Dez. 2021

Jetzt konnte ich es eingrenzen. Wenn ich ein lokales DSM Benutzerkonto nehme, dann geht es. Bekomme nur die Meldung, aber ich denke das ist ok.
OCR auf Synology DSM

A C H T U N G:
synOCR verfügt noch nicht über die notwendigen Berechtigungen!
Bitte erstelle im Aufgabenplaner eine Aufgabe mit nachstehenden Skript (als root)
(die Aufgabe muss mindestens einmal ausgeführt werden)

/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh

Wenn ich jedoch den normalen Benutzer nehme, in diesem Fall ein Domänen Admin, dann klappt es nicht.
Macht das Sinn? Die Rechte sind bei beiden identisch.

geimist · 19. Dez. 2021

Stimmt, das gab es schonmal …
Ich kann dir da aber jetzt keine Lösung anbieten. Du bräuchtest das lokale Benutzerkonto ja nur für die Konfiguration. Erstelle eine Aufgabe im Aufgabenplaner mit einem engen Intervall und du solltest die GUI im Alltag nicht benötigen.

Und ja, die zweite Meldung ist zu erwarten. Abhilfe schafft die besagte Aufgabe.

FrAntje · 19. Dez. 2021

ok, wenn das nicht weiter schlimm ist, konfiguriere ich es einfach mit dem lokalen Benutzer und gut ist.

btw. gibt bei der Ausführung des Scriptes etwas zu beachten? Einfach im Aufgabenplaner das Script starten und dann im Paket-Zentrum synOCR starten, richtig?

geimist · 19. Dez. 2021

synOCR sollte ja bereits im Paketzentrum gestartet sein, oder?

Zu beachten gibt es da nicht wirklich etwas.
Der Pfad muss stimmen (/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh) und als User root sollte es laufen.

FrAntje · 20. Dez. 2021

Hat jetzt alles geklappt, danke!
Das ExifTool läuft nicht mehr unter DSM7. Mach ich da was falsch oder ist das bekannt/normal?

geimist · 20. Dez. 2021

Das freut mich

Exiftool:
Das basiert ja auf einem anderen Paket. Sofern es dieses (noch) nicht für DSM7 gibt, bleibt dir nur die manuelle Installation, wenn du den Mehrwert benötigst. Dazu gab es einige Seiten vorher, bzw. in einem anderen Thread eine Anleitung.

peterhoffmann · 25. Dez. 2021

Hallo Geimist,
im anderen Thread (Dokuscanner) hast du deinen Goldstaub (Aufrufparameter) gepostet.

--remove-background --rotate-pages --rotate-pages-threshold 5 -dc --skip-text --clean-final -l deu --jpeg-quality 70 --png-quality 70 --jbig2-lossy --optimize 3 --author John Doe --pdf-renderer hocr

Bei mir stand noch das hier drin:

Code:

-srd -l deu

"-l deu" steht für deutsch
-srd weiß ich so leider nicht mehr. Im Cookbook von OCRmyPDF habe ich das so auch nicht gefunden.

Was ich bisher zu deinen Parametern finden konnte:
--remove-background => Entfernung von Hintergründen/Rauschen
--rotate-pages --rotate-pages-threshold 5 => Drehen der Seiten
-dc => ?
--skip-text => Entfernung von vorhandenem Text zwecks neuem Durchlauf von OCR?
--clean-final => Löschen von leeren Seiten
-l deu => Sprache deutsch
--jpeg-quality 70 --png-quality 70 --jbig2-lossy => Bildqualität
--optimize 3 => Optimierungsstufe (0 bis 3, 3 am Schärfsten)
--author John_Doe => Hinterlegung vom Author im PDF
--pdf-renderer hocr => Funktion für das nachträgliche Entfernen von Seiten (Mac)

Wo ich mir unsicher war bzw. nichts gefunden habe, habe ich ein Fragezeichen eingefügt.

Kannst du da mal bitte drüberschauen?

geimist · 25. Dez. 2021

Hier mal die Hilfetexte zu den entsprechenden Parametern:

Code:

  -r, --rotate-pages    Automatically rotate pages based on detected text
                        orientation
  -d, --deskew          Deskew each page before performing OCR
  -c, --clean           Clean pages from scanning artifacts before performing
                        OCR, and send the cleaned page to OCR, but do not
                        include the cleaned page in the output
  -i, --clean-final     Clean page as above, and incorporate the cleaned image
                        in the final PDF. Might remove desired content.
  -s, --skip-text       Skip OCR on any pages that already contain text, but
                        include the page in final output; useful for PDFs that
                        contain a mix of images, text pages, and/or previously
                        OCRed pages

Ob --clean-final auch leere Seiten löscht, weiß ich nicht (das macht schon sehr zuverlässig mein Scanner), aber ich denke es nicht.

peterhoffmann · 25. Dez. 2021

Wer lesen (und verstehen) kann, ist klar im Vorteil.

Die Erklärung für clean-final habe ich beim schnellen Überlesen falsch verstanden.

Auch wollte ich schon fragen, warum du kein "deskew" benutzt, nun sehe ich, dass damit das "d" gemeint ist.

Danke für deine Mühe und sorry für den Zeitdiebstahl.

So, ich werde mich heute wohl lieber vom PC verabschieden und mich erst übermorgen wieder frisch und munter ran setzen.

gaerti · 29. Dez. 2021

Moin,

ich hänge mich mal hier ein bisschen rein.
Die Tage funktionierte SynOCR bei mir auch nicht mehr ( die Einstellungsseite lies sich nicht mehr aufrufen) nachdem ich Docker auf ein anderes Volume geschoben habe.

Hatte dann nach langer Suche versucht neu zu installieren, was leider auch nicht gelang, da im Paketzentrum nur die Version für DSM6 zur Verfügung stand.

Nachdem ich dann diesen Thread durchforstet hatte, habe ich irgendwo in der Mitte einen Hinweis und Link auf die Version für DSM 7 gefunden.
Deshalb meine Bitte / Vorschlag:

Den Link für DSM7 gleich in den ersten Thread einfügen oder ganz oben anpinnen.

Nur mal so….

gruss
gaerti

plang.pl · 29. Dez. 2021

gaerti schrieb:
Den Link für DSM7 gleich in den ersten Thread einfügen oder ganz oben anpinnen.

Ist in diesem Forum so nicht möglich / vorgesehen

gaerti schrieb:
Nachdem ich dann diesen Thread durchforstet hatte,

Das erste Ergebnis, wenn ich "synOCR" google, ist ein Eintrag bei Community Package Hub, der sowohl den Download für 6.x als auch für 7.x anbietet, ist also nicht soweit entfernt

Tommes · 29. Dez. 2021

plang.pl schrieb:
Ist in diesem Forum so nicht möglich / vorgesehen

Ein Mod ist durchaus in der Lage das zu übernehmen. Habe das selber schon in Anspruch genommen. Aber natürlich wäre es viel einfacher und schöner, wenn man selber seinen eigenen Thread nachträglich bearbeiten könnte… zumindest den Eingangsbeitrag. Aber das wird wohl ein Wunsch bleiben…

Die Problematik bezüglich DSM 7 habe ich mit meinen Paketen auch. Ich bin hier teilweise einen Kompromiss eingegangen, damit meine Pakete wenigsten irgendwie im Paketzentrum von DSM 7 angezeigt werden, wenn auch ohne Package-Icon und ohne das ich ein Paket offiziell als Beta Version deklarieren kann. Stelle ich bei CPHub mein Paket als Beta rein, wird es im Paketzentrum von DSM 7 überhaupt nicht angezeigt. Gehe ich den Weg, den Synology vorgibt und deklariere es über die info Datei als Beta, wird das Paket zwar als Beta im Paketzentum angezeigt, jemand der das Paket über CPHub läd, bekommt das aber nicht wirklich mit. Das das nicht so einfach klappen will liegt also zum größten Teil an Synology, zum anderen sicherlich auch ein Stück weit an CPHub. Jedoch sind letztere auch abhängig vom „good will" Synologys und die machen es einem anscheinend nicht einfach, wenn ich diesen Beitrag von @Matthieu richtig interpretiere.

Tommes

schau mer mal · 01. Jan. 2022

Hallo zusammen,
das syncORC läuft bei mir problemlos auf einer 220+, habe da aber ein kleines "Luxusproblem" . . .

Kann die Reihenfolge der tagnames im erstellten Dateinamen beeinflußt werden?
Beispiel vorhandener tagnames:
LieferantA
LieferantB
Rechnung
Lieferschein

Bei mir werden die tagnames irgendwie hintereinander gelistet, ich erkenne da kein System, weder der Reihenfolge nach wie im Suchprofil gelistet, noch nach Alphabet der gelisteten tagnames.
Ziel wäre: Immer zuerst Lieferant A oder B und dann Rechnung oder Lieferschein im Dateinamen gelistet zu bekommen:
"#LieferantA#Rechnung.pdf" und nicht "#Rechnung#LieferantA.pdf".

Geht das irgendwie?
Habe die Suchfunktion vom Forum genutzt aber nichts entsprechendes gefunden, evtl. gibt es das Thema ja schon?

Danke + für alle ein besseres 2022 als das 2021 war.

geimist · 01. Jan. 2022

Das interne Hilfsprogramm yq hatte einen Bug und wird im nächsten Update ersetzt.

Tommes · 02. Jan. 2022

Soderle...

... da ich jetzt ja auch über einen Dokumentenscanner (Brother ADS-1700w) verfüge, konnte ich synOCR endlich mal produktiv testen. Bisher habe ich mich ja wenn überhaupt, nur mit dem Paket an sich beschäftigt. Sei's drum...

Mein erster Eindruck ist durchweg positiv, auch wenn ich gleich zu Beginn mit einem schier unlösbaren Problem konfrontiert wurde. Mein Ziel war, sämtliche Gehaltsabrechnungen von mir und meiner Frau zu digitalisieren und synOCR sollte in Verbindung mit einigen Regeln zum erkennen des Arbeitgebers, das Datum rausfiltern und als Dateinamen verwenden. Leider verwenden durch die Bank alle Arbeitgeber für die wir bereits gearbeitet haben nicht das klassische Datumsformat, sondern schreiben z.B. 12/21, 12/2021 oder auch Dezember 2021. Es wollte einfach nicht klappen. am Ende habe ich es dann über die Brother eigenen Software irgendwie gelöst. Gut, Schwamm drüber... mittlerweile ist alles eingescannt.

Jetzt zum eigentlichen Problem.
Ich verfüge bereits über einige eingescannte PDF Dokumente, die i.d.R. in Graustufen bei 200 bis 300 dpi angefertigt wurden. Nun dachte ich mir, das ich diese Dokumente durch synOCR jagen könnte. Um ein bestmögliches Ergebnis zu erhalten, habe ich die Aufrufparameter aus Posting #2172 verwendet. Also dies hier...

--remove-background --rotate-pages --rotate-pages-threshold 5 -dc --skip-text --clean-final -l deu --jpeg-quality 70 --png-quality 70 --jbig2-lossy --optimize 3 --author John Doe --pdf-renderer hocr

... aber leider musste ich feststellen, das die Dokumente nie im Ordner _OUTPUT ankommen. Erst nachdem ich den Optionsschalter --remove-background rausgenommen hatte, wurden die überarbeiteten Dokumente ausgespuckt. Meine Vision war aber, das ich mit --remove-background ein Dokument erhalte, das über einen weißen Hintergrund verfügt, da einige Dokumente u.a. auf Umweltpapier gedruckt wurden, wie z.B. Lohnsteuerbescheide. Leider funktionert das aber nicht, die Frage ist nur.... warum? Oder habe ich einen Denkfehler? Oder ist das Ausgangsmaterial... also das Dateiformat.... nicht kompatibel?

Tommes

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat