synOCR synOCR - GUI für OCRmyPDF

Ich denke, die Priorisierung greift vor allem dann, wenn ocrmypdf mit anderen Prozessen um CPU-Zeit konkurrieren muss. Was frei ist, wird ocrmpypdf wahrscheinlich auch nutzen.
 
OK! Vielen Dank! Werde mal die Prozessorauslastung checken, wenn die Dateien durchlaufen...
 
Es wird immer Peaks (gerade mehrseitige PDFs profitieren von Multithreading während der OCR-Phase) geben - nicht jede Phase benötigt max. CPU-Zeit.
 
Zuletzt bearbeitet:
Guten Morgen,

auch ich bin nun stolzer "Besitzer" der gigantischen Anwendung! Vielen Dank an alle Beteiligten die daran beteiligt waren....Hut ab...?

Bis jetzt läuft es bei mir erstmal nur in VDSM um auszuprobieren :) Die "Installation" hat problemlos geklappt und OCRt die PDF automatisch durch den Aufgabenplaner und verschiebt es in den "Output-Ordner".

Nun wollte ich mal einen Schritt weitergehen und Regeln setzen...leider klappt bei mir nicht einmal die Einfachste. :cry:
Zum meinen "Settings" und mein Verständnis:

1)
YAML:
bilder_1:
    tagname: "Projekt"
    targetfolder: /volume1/homes/Personenname/Test
    condition: any
    subrules:
    - searchstring: Projekt
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false

2) eigentlich sollte doch hier nun wenn in der Datei Projekt gefunden wird, die PDF in den Ordner "Test" der Person gelegt werden?

Ich habe auch schon versucht den tagname in "" zu setzen, sowie den targetfolder, da ich es hier im Forum in verschiedener Ausführung gesehen habe....alles leider ohne Erfolg.

3.) Zu meinem Vorgehen:
Es wurde beim allerersten mal eine Tagconfig als .txt erstellt. Diese habe ich ganz unten mit dem obigen Code ergänzt. Ich habe die txt. runtergeladen, geändert und wieder hochgeladen. In SynOCR habe ich ich in der Konfiguration bei "zu suchende Tags" den Pfad reinkopiert, wo die txt liegt. (In meinem Fall im Input Ordner). Zudem habe ich "gesamtes Dokument" und "verwende Regel-definierte Ordner" eingestellt.

Vllt. kann mir jmd. auf die Sprünge helfen...ich stehe aktuell auf dem Schlauch....:rolleyes:
 
Was steht im Log?
Kannst du mir gern mal hochladen (Link in meiner Signatur).

Damit deine Regeldatei als YAML interpretiert wird, muss in der Datei # synOCR_YAMLRULEFILE drin stehen. Ist das der Fall?
 
Was mir aufgefallen ist:
Das Log sagt: source for tags is the list from the GUI
Der Grund liegt dann darin, dass im Tag-Feld der GUI kein gültiger Pfad hinterlegt ist (das trifft auch dann zu, wenn z.B. noch weitere Zeichen zusätzlich zum Pfad angeben sind).

Im Tagfeld ist bei dir folgender Pfad angegeben:
/volume1/homes/<userXXX>/Input/_TagConfig_[profile_default].txt
Die Regeldatei wurde aber scheinbar mit diesem Pfad erstellt:
/volume1/homes/<userXXX>/Input/_TagConfig_[profile_Regeltest].txt

Also solltest du den Dateinamen oder den Pfad in der GUI mal checken.

Außerdem sieht dein Backuppfad merkwürdig aus …
 
  • Like
Reaktionen: ktm-racer-7
Außerdem sieht dein Backuppfad merkwürdig aus
Ja ich hatte bei den Einstellungen noch keinen Pfad angelegt, da ich dachte brauch ich bei den Tests nicht :)

Also solltest du den Dateinamen oder den Pfad in der GUI mal checken.
Ganz komisch....ich glaube da hatte es irgendwas verhauen, weil ich immer in die FileStation bin und mir den Pfad rauskopiert habe :D

GUI kein gültiger Pfad hinterlegt
Hat mir bei meiner Fehlersuche sehr geholfen....habe das Profil nochmal runtergeschmissen, neu gemacht und siehe da, die erste Datei wurde in den gewünschten Ordner geschoben...dann werde ich mal weiter ausprobieren..

Vielen vielen Dank für die schnelle Hilfe @geimist
 
  • Like
Reaktionen: geimist
Hallo,

habe synOCR erfolgreich installiert (Docker musste separat installiert werden).
Im Moment habe ich nur die vorgegebenen Möglichkeiten ausprobiert - klappt.

Aufgabenplanung: In der GUI ist die geringste Zeit 1Stunde in der nachgesehen wird ob in INPUT eine neue Datei zum Bearbeiten eingestellt wurde.
A) kann der Zeitraum noch weiter verkürzt werden. z.B. alle 5 Minuten, oder geht das auf die cpu
B) Gibt es keine Möglichkeit, wenn Datei in Folder INPUT dann Start
Muss man sich diese Option selbst schnitzen?
Habe zwar schon einige threads gelesen aber bin leider nicht fündig geworden.

Ansonsten ein tolles Teil

Gruß Andreas
 
Der Zeitplaner über die GUI fällt mit DSM7 eh weg (aufgrund der fehlenden Rechte). Daher am besten gleich eine Aufgabe im DSM Aufgabenplaner wie in der Hilfe beschrieben einrichten (das ist dann in DSM7 auch zwingend notwendig). Da kannst du dann auch minütliche Aufrufe starten.

Eine Ordnerüberwachung gibt es derzeit nicht.
 
Hallo,

danke, ist im DSM Aufgabenplaner (den synocr Planer gelöscht)
Die Aufgabe wird ausgeführt (auch wiederholt).
Allein im Log sind bei jedem Aufruf 4 Errorzeilen enthalten.
Hat die jeder, oder bin ich mal wieder ein Einzelkind?
DS412+ mit DSM 6.2.4-25556

----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------
ERROR at line 1241: pagecount_new=$(( $(get_key_value ./etc/counter pagecount) + $pagecount_latest))
ERROR at line 1242: ocrcount_new=$(( $(get_key_value ./etc/counter ocrcount) + 1))
ERROR at line 1243: pagecount_ID_new=$(( $(get_key_value ./etc/counter pagecount_ID${profile_ID}) + $pagecount_latest))
ERROR at line 1244: ocrcount_ID_new=$(( $(get_key_value ./etc/counter ocrcount_ID${profile_ID}) + 1))

Gruß Andreas
 
Hallo,

gerade bemerkt bei einer Testseite (2Seiten).
1. Seite hochkant, Erkennung perfekt
2. Seite quer, da geht gar nicht viel. Aus "Stammdatenblatt" wird "Heiquagepwweils".

Kann er das nicht oder muss hier irgendwo nachjustiert werden.

Gruß Andreas
 
  • Die Errorzeilen sind unbedenklich.
  • Die Emfpfindlichkeit für die Seitenorientierung kann man steuern. Bei mir lauten die Parameter für die Drehung:
    --rotate-pages --rotate-pages-threshold 5
Gundsätzlich hat synOCR selbst kaum Einfluss auf die Texterkennung. Das ist dann Sache der Parameter und OCRmyPDF.
 
Bin noch etwas neu bei synocr. Deshalb eine Nachfrage:
Die Parameter von oben (--rotate-pages.....) in den Einstellungen von synOCR oder ocrmypdf?
Wenn in ocrmypdf (dann muss ich die Hilfe von ocrmypdf bemühen wo die Parameter zu hinterlegen sind)

Grundsatzfrage hinterher: wenn die Parameter richtig greifen können auch gemischte Seiten in hoch- und querformat hintereinander folgen.

Gruß Andreas
 
In der synOCR-GUI Konfiguration ? OCR Optionen und Umbenennung ? OCR Optionen
--rotate-pages steht für das -r, was standardmäßig schon gesetzt ist.

Grundsatzfrage hinterher: wenn die Parameter richtig greifen können auch gemischte Seiten in hoch- und querformat hintereinander folgen.
So sollte das sein.
 
Hallo miteinander,
ich habe heute auf DSM 7.0 aktualisiert und mir die Beta von SynOCR runtergeladen. Hatte davor das Problem, dass SynOCR keine Dokumente mehr verarbeitet hat. Ich habe dann die alte Version deinstalliert und die neue manuell installiert. Wenn ich SynOCR nun aufrufe bekomme ich die angehängte Meldung.
 

Anhänge

  • E6D64A5A-633F-476D-8BB1-C879F976FDEC.jpeg
    E6D64A5A-633F-476D-8BB1-C879F976FDEC.jpeg
    55,3 KB · Aufrufe: 6
  • Welche Version hast du genau installiert / von wo?
  • Ist unter Systemsteuerung ? Sicherheit dieser Haken gesetzt: Schutz gegen Cross-Site-Request-Forgery-Attacken verbessern
  • Greifst du über den Reverseproxy auf den DSM zu?
Das vorhergehende Problem hätten wir gern mal untersuchen können …
 
Danke für die superschnelle Rückmeldung!
Ich habe die Version 1.1.902 von cphub installiert.
Ja, der Haken ist gesetzt.
Ich wollte eh auf DSM 7.0 installieren. Das passt grundsätzlich schon.
 
Dennoch war es ja nicht normal, dass synOCR nicht funktioniert hat.

Was ist mit Reverseproxy?

Kannst du nochmal deinstallieren und neu installieren?
Das Icon wurde getauscht - aber bei dir zeigt es noch das alte an. Nimm mal bitte die Version für DSM7 von meinem Server.
 
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat