synOCR synOCR - GUI für OCRmyPDF

peterhoffmann · 17. Jan. 2019

geimist schrieb:
Das habe ich derzeit nicht geplant. Man kann ja auch in den Systempapierkorb 'backupen' lassen. Sollte das dringend benötigt werden, lasse ich mich auch gerne erweichen.

Nein, nicht nötig. Ich habe dafür ein Script. Ich wollte nur vermeiden, dass ich es reinbastel und du drei Tage später die Funktion einbaust.

Danke für deine Arbeit!

mördock · 17. Jan. 2019

Einen präfix haben leider die vorhandenen Dateien nicht. Die vorhandenen Dateien habe ich immer schön umbenannt, damit ich am Dateinamen den Inhalt erkennen kann. Aber in Zukunft lasse ich den Standardpräfix vom Scanner so lange stehen bis ich sie mit synOCR verarbeitet habe.
Für meine "alten " Dateien finde ich schon eine Lösung.

# mördock#

geimist · 17. Jan. 2019

Ja, irgendwie muss synOCR ja erkennen, ob Dateien zu bearbeiten sind.
Wenn es so viele Dateien sind, so gibt es ja dafür auch Renametools für eine Batch-Umbenennung.

Mike0185 · 17. Jan. 2019

Wenn man das Präfix leer lässt bearbeitet es doch alle Dateien im Ordner input oder verstehe ich hier was falsch!?

geimist · 17. Jan. 2019

Richtig, aber wenn der Eingabeordner gleich dem Ausgabeordner sein soll, so ist dass dann nicht so toll.
Aber es stimmt: Vielleicht sollte mördock einfach für den ersten Programmlauf einen separaten Ausgabeordner anlegen und wenn dann nur noch neue Dateien mit Präfix hinzukommen, kann ja die Ausgabe auf den Eingabeordner geleitet werden.

mördock · 17. Jan. 2019

@geimist: so ist der Plan. Den Bestand werde ich über diverse Ausgabeordner bearbeiten und dann die neuen Dateien ordentlich wegsortieren. In Zukunft wird beim scannen schon anders gearbeitet.

whocares · 19. Jan. 2019

Funktioniert alles perfekt, ich bin absolut begeistert. Genau so etwas habe ich schon lange Zeit gesucht.
Vielen vielen Dank an den Autor dieses Paketes!
Ich werde mir eine Oberfläche per PHP bauen, die auf den Ordner zugreift, welche die fertigen PDF-Dateien enthält. Man soll dann die Dateien einzeln auswählen können und dann eine Kategorisierung und Verschlagwortung durchführen. Auf Basis dieser Angaben werden die Dateien dann in den entsprechenden Ordner verschoben, wie bspw. 2018\Versicherungen\ACME.
So kann man dann nicht nur per "durchhangeln" durch die Ordnerstruktur eine Datei (oder mehrere) finden, sondern die Dateiindizierung ist für diese Ordner auch aktiv. So lässt sich durch Eingabe von Suchbegriffen über alle Dokumente suchen.

peterhoffmann · 19. Jan. 2019

whocares schrieb:
Funktioniert alles perfekt, ich bin absolut begeistert. Genau so etwas habe ich schon lange Zeit gesucht.

Dem kann ich mich nur anschließen.

whocares schrieb:
Ich werde mir eine Oberfläche per PHP bauen

Vielleicht stellst du sie hier dann zur Verfügung.

TeXniXo · 19. Jan. 2019

Ja, wäre klasse, wenn auch die PHP-Datei hier zur Verfügung gestellt wird. Nur kapier ich das Zusammenspiel zw. PHP und synOCR nicht so ganz (wie man die Variablen untereinander checkt) usw.) - aber wenn die Seite steht....

mördock · 20. Jan. 2019

Nabend,

grundsätzlich läuft jetzt alles. Eine Frage "Problem" habe ich aber noch.
Beim Zielverzeichnis wird beim "i" angezeigt das dieses ggf. erstellt wird. Das klappt bei mir nicht. Wenn das Zielverzeichnis noch nicht angelegt ist bricht SynOCR die Arbeit mit dem Hinweis "!!!Zielverzeichnis überprüfen!!!" ab.
Einen Tippfehler schließe ich aus, da ich das Zielverzeichnis grundsätzlich per copy&paste in in SynOCR eintrage. Zielverzeichnis ist gleich Quellverzeichnis/OCR.
Lege ich das Zielverzeichnis im Vorfeld an klappt alles wunderbar.
Arbeite als User mit Adminrechten, daran sollte es auch nicht liegen.

#Mördock#

geimist · 20. Jan. 2019

Danke für die Rückmeldung. Es stimmt: Das Zielverzeichnis wird nicht rechtzeitig erstellt - wird im nächsten Release gefixt.

Aber wenn das Zielverzeichnis auch das Quellverzeichnis ist, so müsste es doch bereits erstellt sein

Das Quellverzeichnis lasse ich nicht erstellen, weil ich davon ausgehe, dass es vom vorhergehenden Ablauf (scannen, ect.) bereits besteht.
Oder habe ich da etwas falsch verstanden?

mördock · 20. Jan. 2019

Ein bisschen falsch verstanden hat du es wohl. Ich nehme das Quellverzeichnis und erstelle in diesem einen weiteren Ordner "ocr". War vielleicht von mir komisch formuliert. "Zielverzeichnis ist gleich Quellverzeichnis/OCR"

geimist · 20. Jan. 2019

ahhh - ok.

Dann bleibt es dabei: wird mit der nächsten Version gefixt.

Mike0185 · 21. Jan. 2019

GuMo,

der "Sicherheitsberater" stuft den Crontab als kritisch ein.

geimist · 21. Jan. 2019

Das lässt sich leider nicht vermeiden und deshalb hatte ich darauf hingewiesen (auch in synOCR). Der DSM weiß halt nicht, was synOCR macht. Der Sicherheitsberater bewertet hier nicht den Inhalt eines Croneintrages, sondern lediglich die nicht vom DSM autorisierte Änderung des Crontabs.

geimist schrieb:
Es besteht die Möglichkeit, über den integrierten Zeitplaner einen Zeitplan zu erstellen, oder ihr nutzt die Beschreibung (Hilfe-Seite), um einen Zeitplan über den DSM-Aufgabenplaner einzurichten. Beim integrierten Zeitplaner ist zu beachten, dass der DSM-Sicherheitsberater den zusätzlichen Croneintrag (da für DSM unbekannt) bemängeln wird.

Wenn das stört, bitte wie unter 'Hilfe' beschrieben, den Aufgabenplaner in der Systemsteuerung verwenden.

geimist · 21. Jan. 2019

synOCR_v0.10.0

synOCR v0.10.0

IMPLEMENTIERUNGEN:
- es kann nach Tags im OCR-Text gesucht werden
- es kann nach Datum im OCR-Text gesucht werden
- es kann eine eigene Umbenennungssyntax angegeben werden
- Tags können einer Kategorie zugeordnet werden (entsprechende Unterordner werden im Zielordner erstellt)

BUGFIXES:
- ein fehlender Zielordner wurde ggf. nicht erstellt
- der Zähler für offene Jobs war z.T. nicht korrekt

Das Tagging hatte ich eigentlich gar nicht geplant, weil ich es nicht brauche, aber wenn ihr es euch nun mal so sehr wünscht …

Dazu noch ein paar Erklärungen:
Tags sollten aus einzelnen Wörtern bestehen und durch Semikolon getrennt werden. Die angegebenen Tags werden im Dokument gesucht und stehen für die Umbenennung zur Verfügung.
z.B.: Rechnung;Arbeit;Versicherung

Tags können auch durch ein Gleichheitszeichen einer Kategorie (für Unterordner) zugeordnet werden (greift nur, sofern man auch die Kategorieordner [nachstehende Option] verwendet).
z.B.: Rechnung;HUK24=Versicherung;Allianz=Versicherung
"HUK24" und "Allianz" steht dann zwar in dem jeweiligen Dateinamen, aber beide Dokumente werden in den gemeinsamen Kategorieordner "Versicherung" verschoben.

Fertige PDFs kann man mit einer Bestimmten Syntax umbenennen lassen. Folgende Variablen sind in Kombination mit Fließtext möglich (Sonderzeichen können unvorhersehbare Folgen haben!):
§d (Datum / Tag)
§m (Datum / Monat)
§y (Datum / Jahr)
§tag (gefundene, oben angegebene Tags)
§tit (Titel der Originaldatei)

§y-§m-§d_§tag_§tit erzeugt z.B. 2018-12-09_#Rechnung_00376.pdf

Datumsangaben werden zuerst im Dokument gesucht. Wenn erfolglos, wird das Dateidatum verwendet.

Bitte testet bei euch die korrekte Vertaggung und Kategorisierung. Ich habe es zwar versucht mit vielen Kombinationen zu testen, aber in freier Wildbahn gibt es ja immer wieder ungeahnte Konstellationen.

whocares · 22. Jan. 2019

Das hört sich alles großartig an. Komme leider erst am Wochenende dazu, das ausgiebig zu testen

peterhoffmann · 22. Jan. 2019

Das mit den Tags finde ich ja klasse. Ein erster Test von mir verlief auch super, sprich überall hingen die Tags jeweils hinten dran.

Mit dem Datum habe ich nicht getestet, da die gescannten Dokumente schon das Datum im Dateinamen haben.

HaukeM · 27. Jan. 2019

Hallo, ich habe das GUI gerade selbst installiert und benutzt. Es hat auf Anhieb und total super funktioniert. Klasse gemacht. Eine tolle Anwendung.

Ich habe ein paar Anmerkungen bzw. Anregungen zur Nutzung der Tags.

Ich scanne die Dokumente per HP Officejet automatisch in PDFs. Diese lasse ich vom Drucker direkt auf der DSM in einem eigenen Bereich "volume1/scan" kopieren. Der Drucker legt die Dateien unter einem einzustellenden Dateinmane+<nr> ab. Es ist dabei nicht von HP vorgesehen, dass man Variablen nutzen kann, um z.B. das Datum der Erstellung abzulegen.
Ich würde deshalb Tags benötigen, die fest auf das Datum der Quelldatei zeigen und nicht automatisch aus dem Dokument erkannt werden und dann entsprechend nicht das gewünschte Ergebnis liefern. Ich habe z.B. ein Zeugnis von meinem Sohn gescannt und darin kommt sein Geburstsdatum als erstes Datum vor...
Wie wäre es mit der Möglichkeit das automatische finden von Datumsangaben im Text abschalten zu können, oder man definiert ein weiteres Set von Tag die sich immer fest auf das Datum der Quelldatei beziehen.

Auf langer Sicht wäre es vielleicht auch sinnvoll erweiterte Formatdefinitionen von y, m und t, wie z.B. in Datumsfeldern von Tabellenkalkulationen zu erlauben. So etwas wie y, yy, yyyy =<einstellig Jahr>, <zweistellig Jahr, leading zero>, <vierstellig Jahr>; m, mm, mmm =<einstellig Monat>, <zweistellig Monat, leading zero>, <ausgeschriebener Montag als Text> und t, tt, =<Tag>, <zweistellig Tag, leading zero>.

HaukeM · 27. Jan. 2019

Ich habe soeben noch einmal eine ganze Reihe von Dateien verarbeitet. Eine war dabei bei der es einen Fehler gab.
Falls OCRmyPDF eine Datei nicht bearbeiten kann, und damit dann die Ausgabetatei nicht erzeugt wurde, dann bleibt die Quelldatei erhalten. Diese wird dann bei jedem erneuten Lauf immer wieder angefasst, es gibt wieder einen Fehler, usw. Müsste man nicht diese Datei speziell behandeln, in einen anderen Ordner verschieben, damit diese Datei nicht immer wieder erneut versucht wird...

Hier den Inhalt der zugehörigen Log Datei:
VERARBEITE: --> <blinded>.pdf (Sun Jan 27 18:56:35 CET 2019)
(temp. Zieldatei: /volume1/scan/ocrout/<blinded>.pdf)

--> OCRmyPDF-LOG:
INFO - reading file from standard input
ERROR - (Ghostscript text extraction failed
/tmp/com.github.ocrmypdf.3agy0w5o/origin.repaired.pdf
**** Error reading a content stream. The page may be incomplete.
Output may be incorrect.
**** Error reading a content stream. The page may be incomplete.
Output may be incorrect.
**** Error reading a content stream. The page may be incomplete.
Output may be incorrect.
**** Error reading a content stream. The page may be incomplete.
Output may be incorrect.
**** Error: File did not complete the page properly and may be damaged.
Output may be incorrect.
Error: /rangecheck in --pdfshowpage_finish--
Operand stack:
--dict:9/17(L)-- --nostringval-- -1 --nostringval--
Execution stack:
%interp_exit .runexec2 --nostringval-- pdfshowpage_finish --nostringval-- 2 %stopped_push --nostringval-- pdfshowpage_finish pdfshowpage_finish false 1 %stopped_push 2045 1 3 %oparray_pop 2044 1 3 %oparray_pop 2025 1 3 %oparray_pop 2026 1 3 %oparray_pop pdfshowpage_finish pdfshowpage_finish 2 1 2 pdfshowpage_finish %for_pos_int_continue 2029 1 7 %oparray_pop pdfshowpage_finish pdfshowpage_finish
Dictionary stack:
--dict:960/1684(ro)(G)-- --dict:1/20(G)-- --dict:84/200(L)-- --dict:84/200(L)-- --dict:133/256(ro)(G)-- --dict:310/450(ro)(G)-- --dict:30/32(L)-- --dict:6/9(L)-- --dict:9/20(L)--
Current allocation mode is local

GPL Ghostscript 9.26: Unrecoverable error, exit code 1
)
<-- OCRmyPDF-LOG-END

L=> fehlgeschlagen! (Zieldatei ist leer oder nicht vorhanden)

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat