synOCR synOCR - GUI für OCRmyPDF

geimist · 04. Aug. 2021

Ich denke, die Priorisierung greift vor allem dann, wenn ocrmypdf mit anderen Prozessen um CPU-Zeit konkurrieren muss. Was frei ist, wird ocrmpypdf wahrscheinlich auch nutzen.

Modiso · 04. Aug. 2021

OK! Vielen Dank! Werde mal die Prozessorauslastung checken, wenn die Dateien durchlaufen...

geimist · 04. Aug. 2021

Es wird immer Peaks (gerade mehrseitige PDFs profitieren von Multithreading während der OCR-Phase) geben - nicht jede Phase benötigt max. CPU-Zeit.

Modiso · 04. Aug. 2021

DANKE!

ktm-racer-7 · 06. Aug. 2021

Guten Morgen,

auch ich bin nun stolzer "Besitzer" der gigantischen Anwendung! Vielen Dank an alle Beteiligten die daran beteiligt waren....Hut ab...?

Bis jetzt läuft es bei mir erstmal nur in VDSM um auszuprobieren

Die "Installation" hat problemlos geklappt und OCRt die PDF automatisch durch den Aufgabenplaner und verschiebt es in den "Output-Ordner".

Nun wollte ich mal einen Schritt weitergehen und Regeln setzen...leider klappt bei mir nicht einmal die Einfachste.

Zum meinen "Settings" und mein Verständnis:

1)

YAML:

bilder_1:
    tagname: "Projekt"
    targetfolder: /volume1/homes/Personenname/Test
    condition: any
    subrules:
    - searchstring: Projekt
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false

2) eigentlich sollte doch hier nun wenn in der Datei Projekt gefunden wird, die PDF in den Ordner "Test" der Person gelegt werden?

Ich habe auch schon versucht den tagname in "" zu setzen, sowie den targetfolder, da ich es hier im Forum in verschiedener Ausführung gesehen habe....alles leider ohne Erfolg.

3.) Zu meinem Vorgehen:
Es wurde beim allerersten mal eine Tagconfig als .txt erstellt. Diese habe ich ganz unten mit dem obigen Code ergänzt. Ich habe die txt. runtergeladen, geändert und wieder hochgeladen. In SynOCR habe ich ich in der Konfiguration bei "zu suchende Tags" den Pfad reinkopiert, wo die txt liegt. (In meinem Fall im Input Ordner). Zudem habe ich "gesamtes Dokument" und "verwende Regel-definierte Ordner" eingestellt.

Vllt. kann mir jmd. auf die Sprünge helfen...ich stehe aktuell auf dem Schlauch....

geimist · 06. Aug. 2021

Was steht im Log?
Kannst du mir gern mal hochladen (Link in meiner Signatur).

Damit deine Regeldatei als YAML interpretiert wird, muss in der Datei # synOCR_YAMLRULEFILE drin stehen. Ist das der Fall?

ktm-racer-7 · 06. Aug. 2021

Vielen Dank für deine Mühe @geimist !

geimist schrieb:
Kannst du mir gern mal hochladen (Link in meiner Signatur).

Habe soeben 2 Dokumente hochgeladen....ich hoffe es hat geklappt

geimist schrieb:
muss in der Datei # synOCR_YAMLRULEFILE drin stehen. Ist das der Fall?

Ja das ist der Fall....ich habe dir die Datei aber auch vorsichtshalber mal hochgeladen

geimist · 06. Aug. 2021

Was mir aufgefallen ist:
Das Log sagt: source for tags is the list from the GUI
Der Grund liegt dann darin, dass im Tag-Feld der GUI kein gültiger Pfad hinterlegt ist (das trifft auch dann zu, wenn z.B. noch weitere Zeichen zusätzlich zum Pfad angeben sind).

Im Tagfeld ist bei dir folgender Pfad angegeben:

/volume1/homes/<userXXX>/Input/_TagConfig_[profile_default].txt

Die Regeldatei wurde aber scheinbar mit diesem Pfad erstellt:

/volume1/homes/<userXXX>/Input/_TagConfig_[profile_Regeltest].txt

Also solltest du den Dateinamen oder den Pfad in der GUI mal checken.

Außerdem sieht dein Backuppfad merkwürdig aus …

ktm-racer-7 · 06. Aug. 2021

geimist schrieb:
Außerdem sieht dein Backuppfad merkwürdig aus

Ja ich hatte bei den Einstellungen noch keinen Pfad angelegt, da ich dachte brauch ich bei den Tests nicht

geimist schrieb:
Also solltest du den Dateinamen oder den Pfad in der GUI mal checken.

Ganz komisch....ich glaube da hatte es irgendwas verhauen, weil ich immer in die FileStation bin und mir den Pfad rauskopiert habe

geimist schrieb:
GUI kein gültiger Pfad hinterlegt

Hat mir bei meiner Fehlersuche sehr geholfen....habe das Profil nochmal runtergeschmissen, neu gemacht und siehe da, die erste Datei wurde in den gewünschten Ordner geschoben...dann werde ich mal weiter ausprobieren..

Vielen vielen Dank für die schnelle Hilfe @geimist

andipc · 07. Aug. 2021

Hallo,

habe synOCR erfolgreich installiert (Docker musste separat installiert werden).
Im Moment habe ich nur die vorgegebenen Möglichkeiten ausprobiert - klappt.

Aufgabenplanung: In der GUI ist die geringste Zeit 1Stunde in der nachgesehen wird ob in INPUT eine neue Datei zum Bearbeiten eingestellt wurde.
A) kann der Zeitraum noch weiter verkürzt werden. z.B. alle 5 Minuten, oder geht das auf die cpu
B) Gibt es keine Möglichkeit, wenn Datei in Folder INPUT dann Start
Muss man sich diese Option selbst schnitzen?
Habe zwar schon einige threads gelesen aber bin leider nicht fündig geworden.

Ansonsten ein tolles Teil

Gruß Andreas

geimist · 07. Aug. 2021

Der Zeitplaner über die GUI fällt mit DSM7 eh weg (aufgrund der fehlenden Rechte). Daher am besten gleich eine Aufgabe im DSM Aufgabenplaner wie in der Hilfe beschrieben einrichten (das ist dann in DSM7 auch zwingend notwendig). Da kannst du dann auch minütliche Aufrufe starten.

Eine Ordnerüberwachung gibt es derzeit nicht.

andipc · 07. Aug. 2021

Hallo,

danke, ist im DSM Aufgabenplaner (den synocr Planer gelöscht)
Die Aufgabe wird ausgeführt (auch wiederholt).
Allein im Log sind bei jedem Aufruf 4 Errorzeilen enthalten.
Hat die jeder, oder bin ich mal wieder ein Einzelkind?
DS412+ mit DSM 6.2.4-25556

----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------
ERROR at line 1241: pagecount_new=$(( $(get_key_value ./etc/counter pagecount) + $pagecount_latest))
ERROR at line 1242: ocrcount_new=$(( $(get_key_value ./etc/counter ocrcount) + 1))
ERROR at line 1243: pagecount_ID_new=$(( $(get_key_value ./etc/counter pagecount_ID${profile_ID}) + $pagecount_latest))
ERROR at line 1244: ocrcount_ID_new=$(( $(get_key_value ./etc/counter ocrcount_ID${profile_ID}) + 1))

Gruß Andreas

andipc · 07. Aug. 2021

Hallo,

gerade bemerkt bei einer Testseite (2Seiten).
1. Seite hochkant, Erkennung perfekt
2. Seite quer, da geht gar nicht viel. Aus "Stammdatenblatt" wird "Heiquagepwweils".

Kann er das nicht oder muss hier irgendwo nachjustiert werden.

Gruß Andreas

geimist · 07. Aug. 2021

Die Errorzeilen sind unbedenklich.
Die Emfpfindlichkeit für die Seitenorientierung kann man steuern. Bei mir lauten die Parameter für die Drehung:
--rotate-pages --rotate-pages-threshold 5

Gundsätzlich hat synOCR selbst kaum Einfluss auf die Texterkennung. Das ist dann Sache der Parameter und OCRmyPDF.

andipc · 08. Aug. 2021

Bin noch etwas neu bei synocr. Deshalb eine Nachfrage:
Die Parameter von oben (--rotate-pages.....) in den Einstellungen von synOCR oder ocrmypdf?
Wenn in ocrmypdf (dann muss ich die Hilfe von ocrmypdf bemühen wo die Parameter zu hinterlegen sind)

Grundsatzfrage hinterher: wenn die Parameter richtig greifen können auch gemischte Seiten in hoch- und querformat hintereinander folgen.

Gruß Andreas

geimist · 08. Aug. 2021

In der synOCR-GUI Konfiguration ? OCR Optionen und Umbenennung ? OCR Optionen
--rotate-pages steht für das -r, was standardmäßig schon gesetzt ist.

andipc schrieb:
Grundsatzfrage hinterher: wenn die Parameter richtig greifen können auch gemischte Seiten in hoch- und querformat hintereinander folgen.

So sollte das sein.

hamitaga · 08. Aug. 2021

Hallo miteinander,
ich habe heute auf DSM 7.0 aktualisiert und mir die Beta von SynOCR runtergeladen. Hatte davor das Problem, dass SynOCR keine Dokumente mehr verarbeitet hat. Ich habe dann die alte Version deinstalliert und die neue manuell installiert. Wenn ich SynOCR nun aufrufe bekomme ich die angehängte Meldung.

geimist · 08. Aug. 2021

Welche Version hast du genau installiert / von wo?
Ist unter Systemsteuerung ? Sicherheit dieser Haken gesetzt: Schutz gegen Cross-Site-Request-Forgery-Attacken verbessern
Greifst du über den Reverseproxy auf den DSM zu?

Das vorhergehende Problem hätten wir gern mal untersuchen können …

hamitaga · 08. Aug. 2021

Danke für die superschnelle Rückmeldung!
Ich habe die Version 1.1.902 von cphub installiert.
Ja, der Haken ist gesetzt.
Ich wollte eh auf DSM 7.0 installieren. Das passt grundsätzlich schon.

geimist · 08. Aug. 2021

Dennoch war es ja nicht normal, dass synOCR nicht funktioniert hat.

Was ist mit Reverseproxy?

Kannst du nochmal deinstallieren und neu installieren?
Das Icon wurde getauscht - aber bei dir zeigt es noch das alte an. Nimm mal bitte die Version für DSM7 von meinem Server.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat