synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
Ich denke, die Priorisierung greift vor allem dann, wenn ocrmypdf mit anderen Prozessen um CPU-Zeit konkurrieren muss. Was frei ist, wird ocrmpypdf wahrscheinlich auch nutzen.
 

Modiso

Benutzer
Mitglied seit
11. Mrz 2017
Beiträge
7
Punkte für Reaktionen
0
Punkte
1
OK! Vielen Dank! Werde mal die Prozessorauslastung checken, wenn die Dateien durchlaufen...
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
Es wird immer Peaks (gerade mehrseitige PDFs profitieren von Multithreading während der OCR-Phase) geben - nicht jede Phase benötigt max. CPU-Zeit.
 
Zuletzt bearbeitet:

Modiso

Benutzer
Mitglied seit
11. Mrz 2017
Beiträge
7
Punkte für Reaktionen
0
Punkte
1
DANKE!
 

ktm-racer-7

Benutzer
Mitglied seit
30. Mai 2021
Beiträge
45
Punkte für Reaktionen
7
Punkte
58
Guten Morgen,

auch ich bin nun stolzer "Besitzer" der gigantischen Anwendung! Vielen Dank an alle Beteiligten die daran beteiligt waren....Hut ab...?

Bis jetzt läuft es bei mir erstmal nur in VDSM um auszuprobieren :) Die "Installation" hat problemlos geklappt und OCRt die PDF automatisch durch den Aufgabenplaner und verschiebt es in den "Output-Ordner".

Nun wollte ich mal einen Schritt weitergehen und Regeln setzen...leider klappt bei mir nicht einmal die Einfachste. :cry:
Zum meinen "Settings" und mein Verständnis:

1)
YAML:
bilder_1:
    tagname: "Projekt"
    targetfolder: /volume1/homes/Personenname/Test
    condition: any
    subrules:
    - searchstring: Projekt
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false

2) eigentlich sollte doch hier nun wenn in der Datei Projekt gefunden wird, die PDF in den Ordner "Test" der Person gelegt werden?

Ich habe auch schon versucht den tagname in "" zu setzen, sowie den targetfolder, da ich es hier im Forum in verschiedener Ausführung gesehen habe....alles leider ohne Erfolg.

3.) Zu meinem Vorgehen:
Es wurde beim allerersten mal eine Tagconfig als .txt erstellt. Diese habe ich ganz unten mit dem obigen Code ergänzt. Ich habe die txt. runtergeladen, geändert und wieder hochgeladen. In SynOCR habe ich ich in der Konfiguration bei "zu suchende Tags" den Pfad reinkopiert, wo die txt liegt. (In meinem Fall im Input Ordner). Zudem habe ich "gesamtes Dokument" und "verwende Regel-definierte Ordner" eingestellt.

Vllt. kann mir jmd. auf die Sprünge helfen...ich stehe aktuell auf dem Schlauch....:rolleyes:
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
Was steht im Log?
Kannst du mir gern mal hochladen (Link in meiner Signatur).

Damit deine Regeldatei als YAML interpretiert wird, muss in der Datei # synOCR_YAMLRULEFILE drin stehen. Ist das der Fall?
 

ktm-racer-7

Benutzer
Mitglied seit
30. Mai 2021
Beiträge
45
Punkte für Reaktionen
7
Punkte
58

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
Was mir aufgefallen ist:
Das Log sagt: source for tags is the list from the GUI
Der Grund liegt dann darin, dass im Tag-Feld der GUI kein gültiger Pfad hinterlegt ist (das trifft auch dann zu, wenn z.B. noch weitere Zeichen zusätzlich zum Pfad angeben sind).

Im Tagfeld ist bei dir folgender Pfad angegeben:
/volume1/homes/<userXXX>/Input/_TagConfig_[profile_default].txt
Die Regeldatei wurde aber scheinbar mit diesem Pfad erstellt:
/volume1/homes/<userXXX>/Input/_TagConfig_[profile_Regeltest].txt

Also solltest du den Dateinamen oder den Pfad in der GUI mal checken.

Außerdem sieht dein Backuppfad merkwürdig aus …
 
  • Like
Reaktionen: ktm-racer-7

ktm-racer-7

Benutzer
Mitglied seit
30. Mai 2021
Beiträge
45
Punkte für Reaktionen
7
Punkte
58
Außerdem sieht dein Backuppfad merkwürdig aus
Ja ich hatte bei den Einstellungen noch keinen Pfad angelegt, da ich dachte brauch ich bei den Tests nicht :)

Also solltest du den Dateinamen oder den Pfad in der GUI mal checken.
Ganz komisch....ich glaube da hatte es irgendwas verhauen, weil ich immer in die FileStation bin und mir den Pfad rauskopiert habe :D

GUI kein gültiger Pfad hinterlegt
Hat mir bei meiner Fehlersuche sehr geholfen....habe das Profil nochmal runtergeschmissen, neu gemacht und siehe da, die erste Datei wurde in den gewünschten Ordner geschoben...dann werde ich mal weiter ausprobieren..

Vielen vielen Dank für die schnelle Hilfe @geimist
 
  • Like
Reaktionen: geimist

andipc

Benutzer
Mitglied seit
15. Jun 2014
Beiträge
30
Punkte für Reaktionen
0
Punkte
6
Hallo,

habe synOCR erfolgreich installiert (Docker musste separat installiert werden).
Im Moment habe ich nur die vorgegebenen Möglichkeiten ausprobiert - klappt.

Aufgabenplanung: In der GUI ist die geringste Zeit 1Stunde in der nachgesehen wird ob in INPUT eine neue Datei zum Bearbeiten eingestellt wurde.
A) kann der Zeitraum noch weiter verkürzt werden. z.B. alle 5 Minuten, oder geht das auf die cpu
B) Gibt es keine Möglichkeit, wenn Datei in Folder INPUT dann Start
Muss man sich diese Option selbst schnitzen?
Habe zwar schon einige threads gelesen aber bin leider nicht fündig geworden.

Ansonsten ein tolles Teil

Gruß Andreas
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
Der Zeitplaner über die GUI fällt mit DSM7 eh weg (aufgrund der fehlenden Rechte). Daher am besten gleich eine Aufgabe im DSM Aufgabenplaner wie in der Hilfe beschrieben einrichten (das ist dann in DSM7 auch zwingend notwendig). Da kannst du dann auch minütliche Aufrufe starten.

Eine Ordnerüberwachung gibt es derzeit nicht.
 

andipc

Benutzer
Mitglied seit
15. Jun 2014
Beiträge
30
Punkte für Reaktionen
0
Punkte
6
Hallo,

danke, ist im DSM Aufgabenplaner (den synocr Planer gelöscht)
Die Aufgabe wird ausgeführt (auch wiederholt).
Allein im Log sind bei jedem Aufruf 4 Errorzeilen enthalten.
Hat die jeder, oder bin ich mal wieder ein Einzelkind?
DS412+ mit DSM 6.2.4-25556

----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------
ERROR at line 1241: pagecount_new=$(( $(get_key_value ./etc/counter pagecount) + $pagecount_latest))
ERROR at line 1242: ocrcount_new=$(( $(get_key_value ./etc/counter ocrcount) + 1))
ERROR at line 1243: pagecount_ID_new=$(( $(get_key_value ./etc/counter pagecount_ID${profile_ID}) + $pagecount_latest))
ERROR at line 1244: ocrcount_ID_new=$(( $(get_key_value ./etc/counter ocrcount_ID${profile_ID}) + 1))

Gruß Andreas
 

andipc

Benutzer
Mitglied seit
15. Jun 2014
Beiträge
30
Punkte für Reaktionen
0
Punkte
6
Hallo,

gerade bemerkt bei einer Testseite (2Seiten).
1. Seite hochkant, Erkennung perfekt
2. Seite quer, da geht gar nicht viel. Aus "Stammdatenblatt" wird "Heiquagepwweils".

Kann er das nicht oder muss hier irgendwo nachjustiert werden.

Gruß Andreas
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
  • Die Errorzeilen sind unbedenklich.
  • Die Emfpfindlichkeit für die Seitenorientierung kann man steuern. Bei mir lauten die Parameter für die Drehung:
    --rotate-pages --rotate-pages-threshold 5
Gundsätzlich hat synOCR selbst kaum Einfluss auf die Texterkennung. Das ist dann Sache der Parameter und OCRmyPDF.
 

andipc

Benutzer
Mitglied seit
15. Jun 2014
Beiträge
30
Punkte für Reaktionen
0
Punkte
6
Bin noch etwas neu bei synocr. Deshalb eine Nachfrage:
Die Parameter von oben (--rotate-pages.....) in den Einstellungen von synOCR oder ocrmypdf?
Wenn in ocrmypdf (dann muss ich die Hilfe von ocrmypdf bemühen wo die Parameter zu hinterlegen sind)

Grundsatzfrage hinterher: wenn die Parameter richtig greifen können auch gemischte Seiten in hoch- und querformat hintereinander folgen.

Gruß Andreas
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
In der synOCR-GUI Konfiguration ? OCR Optionen und Umbenennung ? OCR Optionen
--rotate-pages steht für das -r, was standardmäßig schon gesetzt ist.

Grundsatzfrage hinterher: wenn die Parameter richtig greifen können auch gemischte Seiten in hoch- und querformat hintereinander folgen.
So sollte das sein.
 

hamitaga

Benutzer
Mitglied seit
16. Jul 2021
Beiträge
43
Punkte für Reaktionen
5
Punkte
8
Hallo miteinander,
ich habe heute auf DSM 7.0 aktualisiert und mir die Beta von SynOCR runtergeladen. Hatte davor das Problem, dass SynOCR keine Dokumente mehr verarbeitet hat. Ich habe dann die alte Version deinstalliert und die neue manuell installiert. Wenn ich SynOCR nun aufrufe bekomme ich die angehängte Meldung.
 

Anhänge

  • E6D64A5A-633F-476D-8BB1-C879F976FDEC.jpeg
    E6D64A5A-633F-476D-8BB1-C879F976FDEC.jpeg
    55,3 KB · Aufrufe: 6

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
  • Welche Version hast du genau installiert / von wo?
  • Ist unter Systemsteuerung ? Sicherheit dieser Haken gesetzt: Schutz gegen Cross-Site-Request-Forgery-Attacken verbessern
  • Greifst du über den Reverseproxy auf den DSM zu?
Das vorhergehende Problem hätten wir gern mal untersuchen können …
 

hamitaga

Benutzer
Mitglied seit
16. Jul 2021
Beiträge
43
Punkte für Reaktionen
5
Punkte
8
Danke für die superschnelle Rückmeldung!
Ich habe die Version 1.1.902 von cphub installiert.
Ja, der Haken ist gesetzt.
Ich wollte eh auf DSM 7.0 installieren. Das passt grundsätzlich schon.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
Dennoch war es ja nicht normal, dass synOCR nicht funktioniert hat.

Was ist mit Reverseproxy?

Kannst du nochmal deinstallieren und neu installieren?
Das Icon wurde getauscht - aber bei dir zeigt es noch das alte an. Nimm mal bitte die Version für DSM7 von meinem Server.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat