synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
Bin vor ein paar Tagen zufällig über dein Paket gestolpert...

HILFE ! ! !
Ich hoffe, es ist nichts Schlimmes passiert! Ich werde es in Zukunft besser aufräumen - versprochen :p

SORRY
 

outlander4000

Benutzer
Mitglied seit
08. Jan 2018
Beiträge
5
Punkte für Reaktionen
0
Punkte
0
Hallo Community,
ich werde neidisch wenn ich die Beiträge lese, aber ich bekomme es einfach nicht hin. Irgendetwas muss ich übersehen.
Im Einsatz ist eine DS918+ und ich habe andere Docker Container am Laufen.
In der App SynOCR habe ich die Pfade gelassen und ich kann bestätigen, dass die Pfade sich mit meinem freigegebenen Ordner decken und die Unterordner existieren.
Der Docker Container OCRmyPDF wird nun aber nicht automatisch geladen. Wenn ich den Docker Container manuell lade und einmalig ausführe teilt mir SynOCR beim Manuellen OCR Durchlauf lediglich mit, dass alles erledigt sei.
Hat vielleicht jemand einen Tipp was ich versuchen könnte oder übersehen habe?

Gruß & thanks
 

outlander4000

Benutzer
Mitglied seit
08. Jan 2018
Beiträge
5
Punkte für Reaktionen
0
Punkte
0
Stephan, das war ein Volltreffer. Ich habe den _SCAN Präfix übersehen. Jetzt wurde der Container installiert und es werkelt!
Lieben Dank
Armin
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
Das freut mich :)
Man kann ihn auch ganz weglassen, wenn man das am Scanner z.B. nicht konfigurieren kann.
 

HaukeM

Benutzer
Mitglied seit
27. Jan 2019
Beiträge
8
Punkte für Reaktionen
0
Punkte
1
Ich habe heute die Tags Funktionen ausprobiert und ich vermisse irgenwie ein "dynamisches" Trennzeichen. Was meine ich damit... Ich würde gerne einen Dateienamen wie z.B. "Rechnung - scan.pdf" generieren. Dabei sollte "Rechnung" per Tag gefüllt werden und scan ist der Name der Originaldatei. Das tut auch super. Allerdings kann ich die Trennzeichen " - " ja nur als statischen Text in die Rename-Syntax schreiben. Deshalb bekomme ich dann, sobald kein tag erkannt wird, " - scan" als Ausgabedatei.

Dann ist mir noch ein villeicht nicht gewünschtes Detail dem Backup Verzeichnis aufgefallen. Wenn man eine Datei gearbeiten lässt, deren Dateinamen schon vorher einmal bearbeitet wurde, dann wird die ursprüngliche Datei überschrieben. Da ich die PDFs in der Regel mit meinem HP OfficeJet erstellen lasse; der einen festen Dateinamen + Nummer vergibt; allerdings immer zuerst prüft welche Dateien im Zielpfad vorhanden sind; das Verzeichnis immer leer ist, da die Dateien ja immer automatisch verarbeitet werden, wird immer wieder eine Datei ohne Nummer Anhang wie z.B. "scan.pdf" erstellt. Das führt dann dazu, dass ich im Grunde kein richtiges Backup habe, sondern immer nur die letzte Datei.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
Das mit dem 'dynamischen Trennzeichen' sehe ich schwierig. Dafür kann die Syntax zu beliebig von jedem User gestaltet werden. Woher weiß ich, was gerade ein dynamisches Trennzeichen, oder vielleicht ein Fixtext ist, der immer enthalten sein soll?

Der 2. Punkt:
Das sollte definitiv nicht der Fall sein. Ich lasse eigentlich an jeder Stelle, wo Dateien kopiert / verschoben werden, prüfen, ob derselbe Dateiname bereits vorhanden ist. Wenn ja, so kommt ein Zähler hinten dran.
Schicke mir doch bitte ein Log mit solch einem Fall (synocr ät geimist.eu).
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
synOCR v0.12.1

IMPLEMENTIERUNGEN:
- zeigen unterschiedliche Tags auf ein und dieselbe Kategorie, so wird die Datei nur einmal in den Kategorieordner verschoben
BUGFIXES:
- Das Sonderzeichen "&" im Dateinamen führte zu einer falschen Umbenennung (es sollte grundsätzlich auf Sonderzeichen im Dateinamen verzichtet werden!)
- ein falscher Exit-Status bei einer leeren Aufgabenliste führte dazu, dass der Aufgabenplaner fälschlicherweise von einem Error ausging und ggf. eine entsprechende Benachrichtigungsmail versendete
- Tags mit Leerzeichen wurden nicht erkannt, sofern sie ohne Kategorie gesucht wurden
- verbesserte LOG-Ausgabe beim Aufruf über den Aufgabenplaner
- der Originaldateiname wurde z.T. bei der Umbenennung nicht korrekt weiter verarbeitet
- Verbesserung der Dateizählererweiterung, wenn man die erste Datei ohne Zähler verschoben hatte, bzw. die Originaldateien schon einen Zähler in der Form "(1)" hatten.
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
Ich habe die neueste Version installiert.

Beim Start auf der Konsole ist das HTML-Zeug nun weg, aber dafür eine Fehlermeldung hinzugekommen.

Keine Dokumente im Ordner:
Rich (BBCode):
root@DS216+ / $ /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh: line 27: [: =: unary operator expected
synOCR wurde gestartet ...
Bitte warten, bis die Dateien fertig abgearbeitet wurden.
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh: line 75: [: =: unary operator expected
es gibt nichts zu tun
Programmlauf wird beendet.

1 Dokument im Ordner:
Rich (BBCode):
root@DS216+ / $ /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh: line 27: [: =: unary operator expected
synOCR wurde gestartet ...
Bitte warten, bis die Dateien fertig abgearbeitet wurden.
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254

melu

Benutzer
Mitglied seit
19. Sep 2014
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Sorry, habe die Ursache schon gefunden.

Ich habe den selben Fehler wie in Post #70, Ein Fehler in Zeile 27, und dann in Zeile 75.
Leider sehe ich den Fehler nicht, was muss hier angepasst werden?

Eine Log Datei wird nicht erstellt.

Danke im Voraus!

Gruß

Mel
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254

melu

Benutzer
Mitglied seit
19. Sep 2014
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Gar nichts. Es funktioniert trotz Fehlermeldung.

Daher:

Mhh sehr komisch, bei mir sind PDF-Dateien im Quellordner vorhanden, jedoch kommt als Ausgabe immer "es gibt nichts zu tun" "Programmlauf wird beendet.

Rich (BBCode):
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh: line 27: [: =: unary operator expected
synOCR wurde gestartet ...
Bitte warten, bis die Dateien fertig abgearbeitet wurden.
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh: line 75: [: =: unary operator expected
es gibt nichts zu tun
Programmlauf wird beendet.

Hab mal einen Pfad des Zielordners angegeben, welcher noch nicht existierte, da hat er dann diesen entsprechend erstellt (als root).
Worauf könnte ich noch achten? hatte das Paket synOCR bis dato noch nicht installiert.

Ich finde die Idee hinter synOCR sehr gut und würde es gerne einsetzen.
Aktuell nutze ich pdfmyocr mit einem python script, das funktioniert super. Hier sind aber die erweiterten Möglichkeiten nicht berücksichtigt, zb Tags im Dateinamen etc...

Gruß und danke für die schnelle Antwort vorhin!

Mel

EDIT: Habs gefunden, ist mir etwas unangenehm, hoffe dieser Edit hilft anderen.
Der OCR Such-Präfix war bei mir "falsch". Diesen habe ich nun weg gelassen, ich gehe davon aus, dass synOCR dann alle PDF Dateien die er findet abarbeitet!
Dieses Feature ist genial! Wenn man gescannte PDFs und andere im Quellordner abgelegt hat oder nur in einem Verzeichnis arbeiten möchte!
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
Herzlich willkommen hier im Forum, melu :)

Es ist so, wie Peter schon gesagt hat.
Aber wenn du der Meinung bist, es sollten Dateien abgearbeitet werden, dann liegt der Fehler wo anders. Bitte kontrolliere mal, ob du ein Suchpräfix eingetragen hast, also eine Zeichenfolge, die als Erkennungsmerkmal für neue Dateien vom Scanner dient (z.B. "SCAN_…")
 

melu

Benutzer
Mitglied seit
19. Sep 2014
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Aber wenn du der Meinung bist, es sollten Dateien abgearbeitet werden, dann liegt der Fehler wo anders. Bitte kontrolliere mal, ob du ein Suchpräfix eingetragen hast, also eine Zeichenfolge, die als Erkennungsmerkmal für neue Dateien vom Scanner dient (z.B. "SCAN_…")

Genau wie oben im Edit schon bestätigt, war das mein Fehler (du warst mit der Antwort sogar schneller als ich mit meinem Edit).
Mein Scanner ist kein besonderer und so kann ich "nur" via FTP scannen, dafür gibt es einen eigenen Benutzer der auf nur einen Ordner Zugriff hat. Von dort sollen die Dateien eh in meine Dokumenten Ablage transferiert werden!

Genial was dieses "kleine" Tool alles leistet. Danke!

Gruß

Mel
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
Ich habe etwas Probleme mit der Tagerkennung:
Wie muss ich vorgehen, wenn ich z.B. das Einzelwort "Vertrag" erkannt haben will, gleichzeitig aber zusammengesetzte Wörter wie "Vertragsangelegenheiten" oder "Vertragsbruch" ignoriert werden?

Ich habe es so probiert:
Rich (BBCode):
"Vertrag "
Das wird dann nach dem Speichern in der GUI als
Rich (BBCode):
%22Vertrag %22
angezeigt.

Das funktioniert bedingt, zusammengesetzte Wörter werden damit ignoriert. Wenn ich dann aber das Wort einzeln (z.B. als Überschrift) im Dokument habe, wird es nicht mehr erkannt, genauso, wenn das betreffende Wort vor einem Punkt oder Komma im Satz steht.

Workarounds wie:
Rich (BBCode):
%22Vertrag %22
%22Vertrag.%22
%22Vertrag,%22
fallen mir zuerst ein, aber dann hätte man das auch im Tag stehen, der in den Dateinamen hineinkommt. Außerdem würde das auch nicht das Problem lösen, wenn das betreffende Wort als Überschrift vorkommt.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
Die Anführungszeichen kannst du weglassen (die wurden bisher nicht entsprechend codiert). Mit Leerzeichen dahinter findest du z.B. Vertrag von etwas. Wenn mir jemand helfen kann, wie ich dass in RegEx beschreiben kann, so dass synOCR definitiv nach alleinstehenden Wörten sucht, dann baue ich das ein.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat