synOCR synOCR - GUI für OCRmyPDF

synfor

Benutzer
Sehr erfahren
Mitglied seit
22. Dez 2017
Beiträge
9.167
Punkte für Reaktionen
1.652
Punkte
308
Die Shell benutzt doch nur normale Platzhalter und kein Regex oder? Der Punkt steht also nur für sich selbst.

Ohne den Punkt trifft das auch auf eine Datei xpdf zu.
 
  • Like
Reaktionen: geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
Afu meiner DS918+ gab rd das Paket synOCR nicht,…
Ja, das liegt leider an cphub. Aber du hast dir zu helfen gewusst (y)

Wenn ich es jedoch starte, kommt das hier
  • Ist unter Systemsteuerung ➜ Sicherheit dieser Haken gesetzt: Schutz gegen Cross-Site-Request-Forgery-Attacken verbessern
    (sollte so sein - wird in einer späteren Version nicht mehr relevant sein)
  • Greifst du über den Reverseproxy auf den DSM zu?
    (kann zu Problemen führen)
  • Browsercache leeren / inkognitomodus / anderen Browser testen
  • DS mal neu gestartet?
 

FrAntje

Benutzer
Mitglied seit
25. Mai 2016
Beiträge
359
Punkte für Reaktionen
17
Punkte
18
Habe die Cross Site Request deaktiviert
Kein Reverse
Browser gewechselt, PC gewechselt
Neu gestartet. :(
Unter DSM 7 auf 918+ bleibt der Fehler
Unter DSM 6 auf 920+ klappt es jedoch (synOCR V 1.1.2)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
Habe die Cross Site Request deaktiviert
Der Haken sollte gesetzt sein.
Nach dem Ändern, zunächst ab- und wieder anmelden.

War synOCR vor dem Update auf DSM7 bereits installiert?
 

FrAntje

Benutzer
Mitglied seit
25. Mai 2016
Beiträge
359
Punkte für Reaktionen
17
Punkte
18
Jetzt konnte ich es eingrenzen. Wenn ich ein lokales DSM Benutzerkonto nehme, dann geht es. Bekomme nur die Meldung, aber ich denke das ist ok.
OCR auf Synology DSM

A C H T U N G:
synOCR verfügt noch nicht über die notwendigen Berechtigungen!
Bitte erstelle im Aufgabenplaner eine Aufgabe mit nachstehenden Skript (als root)
(die Aufgabe muss mindestens einmal ausgeführt werden)

/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh

Wenn ich jedoch den normalen Benutzer nehme, in diesem Fall ein Domänen Admin, dann klappt es nicht.
Macht das Sinn? Die Rechte sind bei beiden identisch.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
Stimmt, das gab es schonmal
Ich kann dir da aber jetzt keine Lösung anbieten. Du bräuchtest das lokale Benutzerkonto ja nur für die Konfiguration. Erstelle eine Aufgabe im Aufgabenplaner mit einem engen Intervall und du solltest die GUI im Alltag nicht benötigen.

Und ja, die zweite Meldung ist zu erwarten. Abhilfe schafft die besagte Aufgabe.
 

FrAntje

Benutzer
Mitglied seit
25. Mai 2016
Beiträge
359
Punkte für Reaktionen
17
Punkte
18
ok, wenn das nicht weiter schlimm ist, konfiguriere ich es einfach mit dem lokalen Benutzer und gut ist.

btw. gibt bei der Ausführung des Scriptes etwas zu beachten? Einfach im Aufgabenplaner das Script starten und dann im Paket-Zentrum synOCR starten, richtig?
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
synOCR sollte ja bereits im Paketzentrum gestartet sein, oder?

Zu beachten gibt es da nicht wirklich etwas.
Der Pfad muss stimmen (/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh) und als User root sollte es laufen.
 
  • Like
Reaktionen: FrAntje

FrAntje

Benutzer
Mitglied seit
25. Mai 2016
Beiträge
359
Punkte für Reaktionen
17
Punkte
18
Hat jetzt alles geklappt, danke!
Das ExifTool läuft nicht mehr unter DSM7. Mach ich da was falsch oder ist das bekannt/normal?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
Das freut mich 👍

Exiftool:
Das basiert ja auf einem anderen Paket. Sofern es dieses (noch) nicht für DSM7 gibt, bleibt dir nur die manuelle Installation, wenn du den Mehrwert benötigst. Dazu gab es einige Seiten vorher, bzw. in einem anderen Thread eine Anleitung.
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
Hallo Geimist,
im anderen Thread (Dokuscanner) hast du deinen Goldstaub (Aufrufparameter) gepostet.
--remove-background --rotate-pages --rotate-pages-threshold 5 -dc --skip-text --clean-final -l deu --jpeg-quality 70 --png-quality 70 --jbig2-lossy --optimize 3 --author John Doe --pdf-renderer hocr

Bei mir stand noch das hier drin:
Code:
-srd -l deu
"-l deu" steht für deutsch
-srd weiß ich so leider nicht mehr. Im Cookbook von OCRmyPDF habe ich das so auch nicht gefunden.

Was ich bisher zu deinen Parametern finden konnte:
--remove-background => Entfernung von Hintergründen/Rauschen
--rotate-pages --rotate-pages-threshold 5 => Drehen der Seiten
-dc => ?
--skip-text => Entfernung von vorhandenem Text zwecks neuem Durchlauf von OCR?
--clean-final => Löschen von leeren Seiten
-l deu => Sprache deutsch
--jpeg-quality 70 --png-quality 70 --jbig2-lossy => Bildqualität
--optimize 3 => Optimierungsstufe (0 bis 3, 3 am Schärfsten)
--author John_Doe => Hinterlegung vom Author im PDF
--pdf-renderer hocr => Funktion für das nachträgliche Entfernen von Seiten (Mac)

Wo ich mir unsicher war bzw. nichts gefunden habe, habe ich ein Fragezeichen eingefügt.

Kannst du da mal bitte drüberschauen?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
Hier mal die Hilfetexte zu den entsprechenden Parametern:
Code:
  -r, --rotate-pages    Automatically rotate pages based on detected text
                        orientation
  -d, --deskew          Deskew each page before performing OCR
  -c, --clean           Clean pages from scanning artifacts before performing
                        OCR, and send the cleaned page to OCR, but do not
                        include the cleaned page in the output
  -i, --clean-final     Clean page as above, and incorporate the cleaned image
                        in the final PDF. Might remove desired content.
  -s, --skip-text       Skip OCR on any pages that already contain text, but
                        include the page in final output; useful for PDFs that
                        contain a mix of images, text pages, and/or previously
                        OCRed pages

Ob --clean-final auch leere Seiten löscht, weiß ich nicht (das macht schon sehr zuverlässig mein Scanner), aber ich denke es nicht.
 
  • Like
Reaktionen: peterhoffmann

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
Wer lesen (und verstehen) kann, ist klar im Vorteil. 🤨
Die Erklärung für clean-final habe ich beim schnellen Überlesen falsch verstanden. 🧐
Auch wollte ich schon fragen, warum du kein "deskew" benutzt, nun sehe ich, dass damit das "d" gemeint ist. 🤪

Danke für deine Mühe und sorry für den Zeitdiebstahl. 😉

So, ich werde mich heute wohl lieber vom PC verabschieden und mich erst übermorgen wieder frisch und munter ran setzen.
 
  • Like
Reaktionen: geimist

gaerti

Benutzer
Mitglied seit
15. Dez 2019
Beiträge
99
Punkte für Reaktionen
26
Punkte
24
Moin,

ich hänge mich mal hier ein bisschen rein.
Die Tage funktionierte SynOCR bei mir auch nicht mehr ( die Einstellungsseite lies sich nicht mehr aufrufen) nachdem ich Docker auf ein anderes Volume geschoben habe.

Hatte dann nach langer Suche versucht neu zu installieren, was leider auch nicht gelang, da im Paketzentrum nur die Version für DSM6 zur Verfügung stand.

Nachdem ich dann diesen Thread durchforstet hatte, habe ich irgendwo in der Mitte einen Hinweis und Link auf die Version für DSM 7 gefunden.
Deshalb meine Bitte / Vorschlag:

Den Link für DSM7 gleich in den ersten Thread einfügen oder ganz oben anpinnen.

Nur mal so….

gruss
gaerti
 

plang.pl

Benutzer
Contributor
Sehr erfahren
Mitglied seit
28. Okt 2020
Beiträge
15.028
Punkte für Reaktionen
5.401
Punkte
564
Den Link für DSM7 gleich in den ersten Thread einfügen oder ganz oben anpinnen.
Ist in diesem Forum so nicht möglich / vorgesehen
Nachdem ich dann diesen Thread durchforstet hatte,
Das erste Ergebnis, wenn ich "synOCR" google, ist ein Eintrag bei Community Package Hub, der sowohl den Download für 6.x als auch für 7.x anbietet, ist also nicht soweit entfernt ;)
 
  • Like
Reaktionen: peterhoffmann

Tommes

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
26. Okt 2009
Beiträge
9.736
Punkte für Reaktionen
1.643
Punkte
314
Ist in diesem Forum so nicht möglich / vorgesehen
Ein Mod ist durchaus in der Lage das zu übernehmen. Habe das selber schon in Anspruch genommen. Aber natürlich wäre es viel einfacher und schöner, wenn man selber seinen eigenen Thread nachträglich bearbeiten könnte… zumindest den Eingangsbeitrag. Aber das wird wohl ein Wunsch bleiben…

Die Problematik bezüglich DSM 7 habe ich mit meinen Paketen auch. Ich bin hier teilweise einen Kompromiss eingegangen, damit meine Pakete wenigsten irgendwie im Paketzentrum von DSM 7 angezeigt werden, wenn auch ohne Package-Icon und ohne das ich ein Paket offiziell als Beta Version deklarieren kann. Stelle ich bei CPHub mein Paket als Beta rein, wird es im Paketzentrum von DSM 7 überhaupt nicht angezeigt. Gehe ich den Weg, den Synology vorgibt und deklariere es über die info Datei als Beta, wird das Paket zwar als Beta im Paketzentum angezeigt, jemand der das Paket über CPHub läd, bekommt das aber nicht wirklich mit. Das das nicht so einfach klappen will liegt also zum größten Teil an Synology, zum anderen sicherlich auch ein Stück weit an CPHub. Jedoch sind letztere auch abhängig vom „good will" Synologys und die machen es einem anscheinend nicht einfach, wenn ich diesen Beitrag von @Matthieu richtig interpretiere.

Tommes
 

schau mer mal

Benutzer
Mitglied seit
14. Nov 2020
Beiträge
2
Punkte für Reaktionen
0
Punkte
1
Hallo zusammen,
das syncORC läuft bei mir problemlos auf einer 220+, habe da aber ein kleines "Luxusproblem" . . .

Kann die Reihenfolge der tagnames im erstellten Dateinamen beeinflußt werden?
Beispiel vorhandener tagnames:
LieferantA
LieferantB
Rechnung
Lieferschein

Bei mir werden die tagnames irgendwie hintereinander gelistet, ich erkenne da kein System, weder der Reihenfolge nach wie im Suchprofil gelistet, noch nach Alphabet der gelisteten tagnames.
Ziel wäre: Immer zuerst Lieferant A oder B und dann Rechnung oder Lieferschein im Dateinamen gelistet zu bekommen:
"#LieferantA#Rechnung.pdf" und nicht "#Rechnung#LieferantA.pdf".

Geht das irgendwie?
Habe die Suchfunktion vom Forum genutzt aber nichts entsprechendes gefunden, evtl. gibt es das Thema ja schon?

Danke + für alle ein besseres 2022 als das 2021 war.
 

Tommes

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
26. Okt 2009
Beiträge
9.736
Punkte für Reaktionen
1.643
Punkte
314
Soderle...

... da ich jetzt ja auch über einen Dokumentenscanner (Brother ADS-1700w) verfüge, konnte ich synOCR endlich mal produktiv testen. Bisher habe ich mich ja wenn überhaupt, nur mit dem Paket an sich beschäftigt. Sei's drum...

Mein erster Eindruck ist durchweg positiv, auch wenn ich gleich zu Beginn mit einem schier unlösbaren Problem konfrontiert wurde. Mein Ziel war, sämtliche Gehaltsabrechnungen von mir und meiner Frau zu digitalisieren und synOCR sollte in Verbindung mit einigen Regeln zum erkennen des Arbeitgebers, das Datum rausfiltern und als Dateinamen verwenden. Leider verwenden durch die Bank alle Arbeitgeber für die wir bereits gearbeitet haben nicht das klassische Datumsformat, sondern schreiben z.B. 12/21, 12/2021 oder auch Dezember 2021. Es wollte einfach nicht klappen. am Ende habe ich es dann über die Brother eigenen Software irgendwie gelöst. Gut, Schwamm drüber... mittlerweile ist alles eingescannt.

Jetzt zum eigentlichen Problem.
Ich verfüge bereits über einige eingescannte PDF Dokumente, die i.d.R. in Graustufen bei 200 bis 300 dpi angefertigt wurden. Nun dachte ich mir, das ich diese Dokumente durch synOCR jagen könnte. Um ein bestmögliches Ergebnis zu erhalten, habe ich die Aufrufparameter aus Posting #2172 verwendet. Also dies hier...

--remove-background --rotate-pages --rotate-pages-threshold 5 -dc --skip-text --clean-final -l deu --jpeg-quality 70 --png-quality 70 --jbig2-lossy --optimize 3 --author John Doe --pdf-renderer hocr

... aber leider musste ich feststellen, das die Dokumente nie im Ordner _OUTPUT ankommen. Erst nachdem ich den Optionsschalter --remove-background rausgenommen hatte, wurden die überarbeiteten Dokumente ausgespuckt. Meine Vision war aber, das ich mit --remove-background ein Dokument erhalte, das über einen weißen Hintergrund verfügt, da einige Dokumente u.a. auf Umweltpapier gedruckt wurden, wie z.B. Lohnsteuerbescheide. Leider funktionert das aber nicht, die Frage ist nur.... warum? Oder habe ich einen Denkfehler? Oder ist das Ausgangsmaterial... also das Dateiformat.... nicht kompatibel?

Tommes
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat