synOCR synOCR - GUI für OCRmyPDF

geimist · 30. Jan. 2019

Hafer schrieb:
Bin vor ein paar Tagen zufällig über dein Paket gestolpert...

HILFE ! ! !
Ich hoffe, es ist nichts Schlimmes passiert! Ich werde es in Zukunft besser aufräumen - versprochen

SORRY

Hafer · 31. Jan. 2019

No worries, Meister, es gab keine Verletzten!

outlander4000 · 31. Jan. 2019

Hallo Community,
ich werde neidisch wenn ich die Beiträge lese, aber ich bekomme es einfach nicht hin. Irgendetwas muss ich übersehen.
Im Einsatz ist eine DS918+ und ich habe andere Docker Container am Laufen.
In der App SynOCR habe ich die Pfade gelassen und ich kann bestätigen, dass die Pfade sich mit meinem freigegebenen Ordner decken und die Unterordner existieren.
Der Docker Container OCRmyPDF wird nun aber nicht automatisch geladen. Wenn ich den Docker Container manuell lade und einmalig ausführe teilt mir SynOCR beim Manuellen OCR Durchlauf lediglich mit, dass alles erledigt sei.
Hat vielleicht jemand einen Tipp was ich versuchen könnte oder übersehen habe?

Gruß & thanks

geimist · 31. Jan. 2019

Stimmt das Suchpräfix mit deinen Dateien überein?

outlander4000 · 31. Jan. 2019

Stephan, das war ein Volltreffer. Ich habe den _SCAN Präfix übersehen. Jetzt wurde der Container installiert und es werkelt!
Lieben Dank
Armin

geimist · 31. Jan. 2019

Das freut mich

Man kann ihn auch ganz weglassen, wenn man das am Scanner z.B. nicht konfigurieren kann.

HaukeM · 02. Feb. 2019

Ich habe heute die Tags Funktionen ausprobiert und ich vermisse irgenwie ein "dynamisches" Trennzeichen. Was meine ich damit... Ich würde gerne einen Dateienamen wie z.B. "Rechnung - scan.pdf" generieren. Dabei sollte "Rechnung" per Tag gefüllt werden und scan ist der Name der Originaldatei. Das tut auch super. Allerdings kann ich die Trennzeichen " - " ja nur als statischen Text in die Rename-Syntax schreiben. Deshalb bekomme ich dann, sobald kein tag erkannt wird, " - scan" als Ausgabedatei.

Dann ist mir noch ein villeicht nicht gewünschtes Detail dem Backup Verzeichnis aufgefallen. Wenn man eine Datei gearbeiten lässt, deren Dateinamen schon vorher einmal bearbeitet wurde, dann wird die ursprüngliche Datei überschrieben. Da ich die PDFs in der Regel mit meinem HP OfficeJet erstellen lasse; der einen festen Dateinamen + Nummer vergibt; allerdings immer zuerst prüft welche Dateien im Zielpfad vorhanden sind; das Verzeichnis immer leer ist, da die Dateien ja immer automatisch verarbeitet werden, wird immer wieder eine Datei ohne Nummer Anhang wie z.B. "scan.pdf" erstellt. Das führt dann dazu, dass ich im Grunde kein richtiges Backup habe, sondern immer nur die letzte Datei.

geimist · 02. Feb. 2019

Das mit dem 'dynamischen Trennzeichen' sehe ich schwierig. Dafür kann die Syntax zu beliebig von jedem User gestaltet werden. Woher weiß ich, was gerade ein dynamisches Trennzeichen, oder vielleicht ein Fixtext ist, der immer enthalten sein soll?

Der 2. Punkt:
Das sollte definitiv nicht der Fall sein. Ich lasse eigentlich an jeder Stelle, wo Dateien kopiert / verschoben werden, prüfen, ob derselbe Dateiname bereits vorhanden ist. Wenn ja, so kommt ein Zähler hinten dran.
Schicke mir doch bitte ein Log mit solch einem Fall (synocr ät geimist.eu).

geimist · 05. Feb. 2019

synOCR v0.12.1

IMPLEMENTIERUNGEN:
- zeigen unterschiedliche Tags auf ein und dieselbe Kategorie, so wird die Datei nur einmal in den Kategorieordner verschoben
BUGFIXES:
- Das Sonderzeichen "&" im Dateinamen führte zu einer falschen Umbenennung (es sollte grundsätzlich auf Sonderzeichen im Dateinamen verzichtet werden!)
- ein falscher Exit-Status bei einer leeren Aufgabenliste führte dazu, dass der Aufgabenplaner fälschlicherweise von einem Error ausging und ggf. eine entsprechende Benachrichtigungsmail versendete
- Tags mit Leerzeichen wurden nicht erkannt, sofern sie ohne Kategorie gesucht wurden
- verbesserte LOG-Ausgabe beim Aufruf über den Aufgabenplaner
- der Originaldateiname wurde z.T. bei der Umbenennung nicht korrekt weiter verarbeitet
- Verbesserung der Dateizählererweiterung, wenn man die erste Datei ohne Zähler verschoben hatte, bzw. die Originaldateien schon einen Zähler in der Form "(1)" hatten.

peterhoffmann · 06. Feb. 2019

Ich habe die neueste Version installiert.

Beim Start auf der Konsole ist das HTML-Zeug nun weg, aber dafür eine Fehlermeldung hinzugekommen.

Keine Dokumente im Ordner:

Rich (BBCode):

root@DS216+ / $ /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh: line 27: [: =: unary operator expected
synOCR wurde gestartet ...
Bitte warten, bis die Dateien fertig abgearbeitet wurden.
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh: line 75: [: =: unary operator expected
es gibt nichts zu tun
Programmlauf wird beendet.

1 Dokument im Ordner:

Rich (BBCode):

root@DS216+ / $ /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh: line 27: [: =: unary operator expected
synOCR wurde gestartet ...
Bitte warten, bis die Dateien fertig abgearbeitet wurden.

geimist · 06. Feb. 2019

Sorry, habe die Ursache schon gefunden.

Das Dokument wird aber dennoch abgearbeitet, oder?

peterhoffmann · 06. Feb. 2019

geimist schrieb:
Das Dokument wird aber dennoch abgearbeitet, oder?

Ja, ohne Probleme. Halt nur die Fehlermeldung, die dort erscheint.

geimist · 06. Feb. 2019

Ok. Dann reicht ja die Korrektur beim nächsten Release

melu · 13. Feb. 2019

geimist schrieb:
Sorry, habe die Ursache schon gefunden.

Ich habe den selben Fehler wie in Post #70, Ein Fehler in Zeile 27, und dann in Zeile 75.
Leider sehe ich den Fehler nicht, was muss hier angepasst werden?

Eine Log Datei wird nicht erstellt.

Danke im Voraus!

Gruß

Mel

peterhoffmann · 13. Feb. 2019

melu schrieb:
Leider sehe ich den Fehler nicht, was muss hier angepasst werden?

Gar nichts. Es funktioniert trotz Fehlermeldung.

Daher:

geimist schrieb:
Dann reicht ja die Korrektur beim nächsten Release

melu · 13. Feb. 2019

peterhoffmann schrieb:
Gar nichts. Es funktioniert trotz Fehlermeldung.

Daher:

Mhh sehr komisch, bei mir sind PDF-Dateien im Quellordner vorhanden, jedoch kommt als Ausgabe immer "es gibt nichts zu tun" "Programmlauf wird beendet.

Rich (BBCode):

/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh: line 27: [: =: unary operator expected
synOCR wurde gestartet ...
Bitte warten, bis die Dateien fertig abgearbeitet wurden.
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh: line 75: [: =: unary operator expected
es gibt nichts zu tun
Programmlauf wird beendet.

Hab mal einen Pfad des Zielordners angegeben, welcher noch nicht existierte, da hat er dann diesen entsprechend erstellt (als root).
Worauf könnte ich noch achten? hatte das Paket synOCR bis dato noch nicht installiert.

Ich finde die Idee hinter synOCR sehr gut und würde es gerne einsetzen.
Aktuell nutze ich pdfmyocr mit einem python script, das funktioniert super. Hier sind aber die erweiterten Möglichkeiten nicht berücksichtigt, zb Tags im Dateinamen etc...

Gruß und danke für die schnelle Antwort vorhin!

Mel

EDIT: Habs gefunden, ist mir etwas unangenehm, hoffe dieser Edit hilft anderen.
Der OCR Such-Präfix war bei mir "falsch". Diesen habe ich nun weg gelassen, ich gehe davon aus, dass synOCR dann alle PDF Dateien die er findet abarbeitet!
Dieses Feature ist genial! Wenn man gescannte PDFs und andere im Quellordner abgelegt hat oder nur in einem Verzeichnis arbeiten möchte!

geimist · 13. Feb. 2019

Herzlich willkommen hier im Forum, melu

Es ist so, wie Peter schon gesagt hat.
Aber wenn du der Meinung bist, es sollten Dateien abgearbeitet werden, dann liegt der Fehler wo anders. Bitte kontrolliere mal, ob du ein Suchpräfix eingetragen hast, also eine Zeichenfolge, die als Erkennungsmerkmal für neue Dateien vom Scanner dient (z.B. "SCAN_…")

melu · 13. Feb. 2019

geimist schrieb:
Aber wenn du der Meinung bist, es sollten Dateien abgearbeitet werden, dann liegt der Fehler wo anders. Bitte kontrolliere mal, ob du ein Suchpräfix eingetragen hast, also eine Zeichenfolge, die als Erkennungsmerkmal für neue Dateien vom Scanner dient (z.B. "SCAN_…")

Genau wie oben im Edit schon bestätigt, war das mein Fehler (du warst mit der Antwort sogar schneller als ich mit meinem Edit).
Mein Scanner ist kein besonderer und so kann ich "nur" via FTP scannen, dafür gibt es einen eigenen Benutzer der auf nur einen Ordner Zugriff hat. Von dort sollen die Dateien eh in meine Dokumenten Ablage transferiert werden!

Genial was dieses "kleine" Tool alles leistet. Danke!

Gruß

Mel

peterhoffmann · 15. Feb. 2019

Ich habe etwas Probleme mit der Tagerkennung:
Wie muss ich vorgehen, wenn ich z.B. das Einzelwort "Vertrag" erkannt haben will, gleichzeitig aber zusammengesetzte Wörter wie "Vertragsangelegenheiten" oder "Vertragsbruch" ignoriert werden?

Ich habe es so probiert:

Rich (BBCode):

"Vertrag "

Das wird dann nach dem Speichern in der GUI als

Rich (BBCode):

%22Vertrag %22

angezeigt.

Das funktioniert bedingt, zusammengesetzte Wörter werden damit ignoriert. Wenn ich dann aber das Wort einzeln (z.B. als Überschrift) im Dokument habe, wird es nicht mehr erkannt, genauso, wenn das betreffende Wort vor einem Punkt oder Komma im Satz steht.

Workarounds wie:

Rich (BBCode):

%22Vertrag %22
%22Vertrag.%22
%22Vertrag,%22

fallen mir zuerst ein, aber dann hätte man das auch im Tag stehen, der in den Dateinamen hineinkommt. Außerdem würde das auch nicht das Problem lösen, wenn das betreffende Wort als Überschrift vorkommt.

geimist · 15. Feb. 2019

Die Anführungszeichen kannst du weglassen (die wurden bisher nicht entsprechend codiert). Mit Leerzeichen dahinter findest du z.B. Vertrag von etwas. Wenn mir jemand helfen kann, wie ich dass in RegEx beschreiben kann, so dass synOCR definitiv nach alleinstehenden Wörten sucht, dann baue ich das ein.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat