synOCR synOCR - GUI für OCRmyPDF

guidovg

Benutzer
Mitglied seit
26. Nov 2011
Beiträge
142
Punkte für Reaktionen
43
Punkte
34
So läuft! Aber ist das normal, dass der Job ordentlich erledigt wird und der Container trotzdem unerwartet beendet wird? Im Prinzip soll mich das nicht stören, aber es müllt einem die Benachrichtigungen zu.
 
Zuletzt bearbeitet:

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
naja, was heisst schon unerwartet beendet.... wenn ich via portainer arbeite, meldet synology auch ganz wild.....
 
Zuletzt bearbeitet von einem Moderator:

guidovg

Benutzer
Mitglied seit
26. Nov 2011
Beiträge
142
Punkte für Reaktionen
43
Punkte
34
Falls jemand das auf der GitHUb Seite mit dem FileContent versteht würde ich mich über eine kleine Hilfe freuen. Mein Ausdruck nach dem ich suche lautet als RegEx: \d{2}\s*\d{3}\s*\d{3}

Der Name lautet Versicherung-ID

UPDATE: Manchmal ist es einfacher als man denkt,:

filters:
- filecontent: \d{2}\s*\d{3}\s*\d{3}
actions:
- echo: "Versicherungsvertrag gefunden!"
 
Zuletzt bearbeitet:

linuxdep

Benutzer
Mitglied seit
02. Jan 2009
Beiträge
584
Punkte für Reaktionen
11
Punkte
38
scheint ja die Erweiterung der Erweiterung zu sein... hört sich schon mal interessant an.

Was ich aber gerne mal von euch wissen möchte, wie scannt ihr eure Dokumente ein?

Habe das mal heirher abgetrennt der Übersichtlichkeit halber
 

Rincemac

Benutzer
Mitglied seit
11. Jun 2020
Beiträge
2
Punkte für Reaktionen
0
Punkte
1
Was ist das richtige Format der "tags.txt"?

Danke für die Erstellung des Tools/Scripts - das macht es sehr viel einfacher als am Script rumzuwursteln!

Das OCR / Ingest über Ordner läuft gut - eine kurze Frage allerdings:
Meine Tags.txt wird nicht richtig eingelesen... der Pfad müsste eigentlich passen. Es wird zumindest nirgends gemeckert und die Pfade zu den Ordnern funktionieren ja auch im gleichen Format,
im Log erscheint aber immer nur das hier:

Rich (BBCode):
LOGFILE/OUTPUT (LOG LEVEL 2)

                     ? search tags and date:
                          tag count:       1
                          Search by tag:   "/volume2/_SCANS/_Ingest/_tags/tags.txt" ?  -
                          rename tag is: ""

Probiert habe ich es sowohl mit allen Tags (wie in der Textbox im Tool) in einer Zeile, getrennt mit ";"
also:

Rich (BBCode):
Tag=Unterordner;Tag2=Unterordner;Tag3=Unterordner2;...

Das Gleiche passiert, wenn die Textdatei "zeilengetrennt" angelegt und mit Tags im richtigen Format befüllt wird, also so:

Rich (BBCode):
Tag=Unterordner
Tag2=Unterordner
Tag3=Unterordner2

Beide Formate in der Textdatei erkennt das Script (bei mir) nicht korrekt, anscheinend. "Erweiterter Loglevel" (2) hilft mir leider auch nicht weiter, da der Output beim im Output bei "tags.txt" der gleiche ist wie mit Loglevel 1.

Welches ist das richtige ".txt"-Format, damit die einzelnen Tags korrekt eingelesen werden? Hier funktioniert es ja anscheinend richtig.

Wenn ich die Tags (in einer Zeile, wie gefordert) in die Textbox vom Tool packe, funktionieren sie wie gewünscht und von Dir angedacht.

Die Tags würde ich am Besten von Anfang mit einer Textdatei an flexibel halten, da kommen wenn das so läuft mit dem Testen und gewünschter Struktur/Umbennung wohl einige Tags dazu im Laufe der Zeit.
Mit dem Textfile spart man sich auch das Einloggen in die Synology-Oberfläche, sobald der Cronjob eingerichtet ist.

Generell als Feedback:
es funktioniert super (für Semiprofessionell- oder Privatgebrauch), die False Positives bei der Benennung der Datei an sich (bei mir) dürften nur durch komplexes Regelwerk auszumerzen sein.
Ich denke das ginge dann in eine zu komplexe Richtung für die eigentlich angedachte "Einfachheit" dieses Tools. Aber schaden würde es sicher nicht. Regex oder String-Matching ist nur ein Teil der Lösung evtl.,
das müsste eher so ein Baukastenprinzip wie bei z.B. Outlook-Regeln für die Inbox sein, also auch eine Logikkette vom Nutzer "baubar" gemacht werden pro Regel.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.375
Punkte
234
Der Inhalt der Tagliste wird darauf geprüft, ob er ein Dateipfad IST (nicht lediglich ENTHÄLT). In deinem Fall wird die Tagliste nicht als Dateipfad erkannt (dein angegebener Pfad wird als Tag interpretiert). Steht auch nichts anders als der Pfad in dem Feld?

Funktioniert auf der Konsole ein:
Rich (BBCode):
[FONT=&quot]cat /volume2/_SCANS/_Ingest/_tags/tags.txt[/FONT]
 

Andy+

Benutzer
Sehr erfahren
Mitglied seit
25. Jan 2016
Beiträge
5.357
Punkte für Reaktionen
481
Punkte
189
Wenn ich PDFs verarbeite, wird bei jedem Dokument ein Container gestartet. Wäre es nicht besser, den Container einmal für die vorhandenen Dokumente zu starten?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.375
Punkte
234
Welches Problem siehst du darin?
Es ist ein gängiges Konzept, temporäre Dockercontainer mit bestimmten Paramtern zu erzeugen, welches auch von OCRmyPDF genutzt wird. Darauf habe ich keinen Einfluss.
 

Andy+

Benutzer
Sehr erfahren
Mitglied seit
25. Jan 2016
Beiträge
5.357
Punkte für Reaktionen
481
Punkte
189
Kein Problem, die Software läuft. Ich kann mir nur eben vorstellen, dass das jedes mal Zeit braucht, den Container zu starten, das ist alles.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.375
Punkte
234
Ja, sicher benötigt das etwas Zeit (bei mir 12 Sekunden), aber in der Regel wird es als cronjob laufen, wo es wohl nicht ins Gewicht fallen wird.
Wie gesagt: mit vernünftigem Aufwand (wenn überhaupt) kann ich das nicht ändern.
 

Rincemac

Benutzer
Mitglied seit
11. Jun 2020
Beiträge
2
Punkte für Reaktionen
0
Punkte
1
Steht auch nichts anders als der Pfad in dem Feld?

Funktioniert auf der Konsole ein:
Rich (BBCode):
[FONT="]cat /volume2/_SCANS/_Ingest/_tags/tags.txt[/FONT]

Danke für die Antwort!

Dein Verdacht mit "steht nichts anderes in der Box" war denke ich die richtige Lösung.

Dein CAT-Tipp war die heiße Spur.
Es muss ein unsichtbares Steuerzeichen in der ersten Version des Pfades reingerutscht sein (oder sonst irgendein falsch interpretiertes)

Einmal wurde der Pfad in SSH nicht erkannt (>> so wie oben aus dem Feld in SynOCR rauskopiert), nochmal das Ganze manuell aus File Station rauskopiert direkt in die Konsole: geht.
Optisch sind es null Unterschiede, wenn ich beides "untereinander" packe. Wild.

TL;DR: Es läuft jetzt korrekt mit der Tag-Erkennung aus dem File! Danke fürs Helfen.
 

Nybass

Benutzer
Mitglied seit
27. Mai 2010
Beiträge
93
Punkte für Reaktionen
3
Punkte
8
Hi Stephan,

ein tolle Funktion wäre, wenn automatisch leere Seiten entfernt werden können.
Dies kommt vor allem vor wenn man Doppelseitig einscannt aber nicht jedes Blatt doppelseitig bedrückt ist.

Grüße
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.375
Punkte
234

Nybass

Benutzer
Mitglied seit
27. Mai 2010
Beiträge
93
Punkte für Reaktionen
3
Punkte
8
Mein Drucker/Scanner Kombi kann das leider nicht.
Danke für den Link zur entsprechenden Diskussion
 

Sol1s

Benutzer
Mitglied seit
14. Jun 2020
Beiträge
1
Punkte für Reaktionen
0
Punkte
1
Hallo Stephan!

Mit etwas Ach und Krach hab ichs heute bei mir zum Laufen gebracht, jetzt verrichtet es ganz brav seinen Job :)

Was mich am meisten aufgehalten hat, war, dass ich das default-Profil geklont hab, um immer wieder Zugriff auf die Originaleinstellungen zu kriegen, und dann dieses nicht deaktiviert hab.
So hat der Button zum manuellen Ausführen von synOCR nun ständig das default-Profil ausgeführt und ich Depp hab immer das neue Profil bearbeitet und mich dabei gefragt, weshalb das GUI ständig wegen dem Quellverzeichnis motzt.

Vielleicht wärs sinnvoll, wenn du beim Start des Scripts den Namen des verwendeten Profils zurückgibst, dann kann man sicher sein, dass das richtige läuft :)
(Oder alternativ die Option geben, welches Profil beim Klicken des Buttons ausgeführt werden soll)

Liebe Grüsse
Stefan
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.375
Punkte
234
Es werden bei jedem Programmlauf immer ALLE Profile abgearbeitet, welche auf 'aktiv' gesetzt sind.
Bzgl. der Einstellungen des Default-Profils hättest du dir keine Sorgen machen müssen: Beim Erstellen eines neuen Profils werden die Defaulteinstellungen voreingetragen ;)

Schön, dass es jetzt funktioniert!
 

rednag

Benutzer
Mitglied seit
08. Nov 2013
Beiträge
3.955
Punkte für Reaktionen
12
Punkte
104
So. Nach langem Lesen und Studieren des Threads samt Testen des Programms muß ich doch mal eine Frage loswerden.
Mein Drucker scannt per SMB auf eine Netzwerkfreigabe auf der Syno.
Das wunderbare Tool installiert und ein paar Tests durchlaufen lassen. Die Erkennung ist erstklassig.
Ohne Zeitplan, sondern manuell.
Nun würde ich gerne die Scans in bestehende Unterordner einsortieren lassen. Also z. B. wenn eine Rechnung gefunden/erkannt wird soll die in den Ordner "Rechnungen" gehen.
Leider schaffe ich das nicht.
Die Einstellungen in dem Feld "zu suchende Tags" sehen so aus:

Rechnungen;Landratsamt;Versicherung;Wohnung;Bestellungen;Gesundheit;Rechnung=Rechnungen

Die Ordner nach Kategorien sind im Output - Ordner erstellt worden.

1.PNG

2.PNG

Das Logfile gibt mir auch die Info:

Search by tag: "Rechnung" ? OK (Cat: "Rechnungen")

Ich hab damit experimentiert, hab die Ordner mal nicht selbst angelegt, dann wieder selbst angelegt, egal was ich gemacht habe; Der Scan landet immer im Output-Verzeichnis.
Ich hab das gleiche auch mal mit einem Scan/Ordner von der Kategorie "Landratsamt" versucht. Leider das gleiche.

3.PNG

Hat wer eine Idee woran dies liegt?
Kann gerne noch weitere Experimente durchführen.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.375
Punkte
234
Das tust du eigentlich schon richtig … :confused:
Könntest du mir mal ein Log schicken, wo es nicht funktioniert? Am Ende wird das Verschieben geloggt.
 

rednag

Benutzer
Mitglied seit
08. Nov 2013
Beiträge
3.955
Punkte für Reaktionen
12
Punkte
104
Hallo Stephan.

ich habe jetzt 3x den Versuch gemacht Dir das Log per PN zu schicken.
Alle 3 Nachrichten sind irgendwie versandet.
Kann ich Dich anderweitig kontaktieren?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.375
Punkte
234
Alle 3 PNs sind angekommen.
Der Fehler ist aber schon eigenartig. Ich gucke mir das nochmal an.

… Kann ich Dich anderweitig kontaktieren?
synocr@<mein Username>.eu
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat