synOCR synOCR - GUI für OCRmyPDF

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
Das habe ich derzeit nicht geplant. Man kann ja auch in den Systempapierkorb 'backupen' lassen. Sollte das dringend benötigt werden, lasse ich mich auch gerne erweichen.
Nein, nicht nötig. Ich habe dafür ein Script. Ich wollte nur vermeiden, dass ich es reinbastel und du drei Tage später die Funktion einbaust. ;)

Danke für deine Arbeit!
 

mördock

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
806
Punkte für Reaktionen
17
Punkte
44
Einen präfix haben leider die vorhandenen Dateien nicht. Die vorhandenen Dateien habe ich immer schön umbenannt, damit ich am Dateinamen den Inhalt erkennen kann. Aber in Zukunft lasse ich den Standardpräfix vom Scanner so lange stehen bis ich sie mit synOCR verarbeitet habe.
Für meine "alten " Dateien finde ich schon eine Lösung.

# mördock#
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
Ja, irgendwie muss synOCR ja erkennen, ob Dateien zu bearbeiten sind.
Wenn es so viele Dateien sind, so gibt es ja dafür auch Renametools für eine Batch-Umbenennung.
 

Mike0185

Benutzer
Mitglied seit
26. Jun 2012
Beiträge
447
Punkte für Reaktionen
14
Punkte
24
Wenn man das Präfix leer lässt bearbeitet es doch alle Dateien im Ordner input oder verstehe ich hier was falsch!? :)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
Richtig, aber wenn der Eingabeordner gleich dem Ausgabeordner sein soll, so ist dass dann nicht so toll.
Aber es stimmt: Vielleicht sollte mördock einfach für den ersten Programmlauf einen separaten Ausgabeordner anlegen und wenn dann nur noch neue Dateien mit Präfix hinzukommen, kann ja die Ausgabe auf den Eingabeordner geleitet werden.
 

mördock

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
806
Punkte für Reaktionen
17
Punkte
44
@geimist: so ist der Plan. Den Bestand werde ich über diverse Ausgabeordner bearbeiten und dann die neuen Dateien ordentlich wegsortieren. In Zukunft wird beim scannen schon anders gearbeitet.
 

whocares

Benutzer
Mitglied seit
10. Okt 2018
Beiträge
52
Punkte für Reaktionen
1
Punkte
8
Funktioniert alles perfekt, ich bin absolut begeistert. Genau so etwas habe ich schon lange Zeit gesucht.
Vielen vielen Dank an den Autor dieses Paketes!
Ich werde mir eine Oberfläche per PHP bauen, die auf den Ordner zugreift, welche die fertigen PDF-Dateien enthält. Man soll dann die Dateien einzeln auswählen können und dann eine Kategorisierung und Verschlagwortung durchführen. Auf Basis dieser Angaben werden die Dateien dann in den entsprechenden Ordner verschoben, wie bspw. 2018\Versicherungen\ACME.
So kann man dann nicht nur per "durchhangeln" durch die Ordnerstruktur eine Datei (oder mehrere) finden, sondern die Dateiindizierung ist für diese Ordner auch aktiv. So lässt sich durch Eingabe von Suchbegriffen über alle Dokumente suchen.
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254

TeXniXo

Benutzer
Mitglied seit
07. Mai 2012
Beiträge
4.948
Punkte für Reaktionen
100
Punkte
134
Ja, wäre klasse, wenn auch die PHP-Datei hier zur Verfügung gestellt wird. Nur kapier ich das Zusammenspiel zw. PHP und synOCR nicht so ganz (wie man die Variablen untereinander checkt) usw.) - aber wenn die Seite steht.... ;)
 

mördock

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
806
Punkte für Reaktionen
17
Punkte
44
Nabend,

grundsätzlich läuft jetzt alles. Eine Frage "Problem" habe ich aber noch.
Beim Zielverzeichnis wird beim "i" angezeigt das dieses ggf. erstellt wird. Das klappt bei mir nicht. Wenn das Zielverzeichnis noch nicht angelegt ist bricht SynOCR die Arbeit mit dem Hinweis "!!!Zielverzeichnis überprüfen!!!" ab.
Einen Tippfehler schließe ich aus, da ich das Zielverzeichnis grundsätzlich per copy&paste in in SynOCR eintrage. Zielverzeichnis ist gleich Quellverzeichnis/OCR.
Lege ich das Zielverzeichnis im Vorfeld an klappt alles wunderbar.
Arbeite als User mit Adminrechten, daran sollte es auch nicht liegen.

#Mördock#
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
Danke für die Rückmeldung. Es stimmt: Das Zielverzeichnis wird nicht rechtzeitig erstellt - wird im nächsten Release gefixt.

Aber wenn das Zielverzeichnis auch das Quellverzeichnis ist, so müsste es doch bereits erstellt sein :rolleyes:
Das Quellverzeichnis lasse ich nicht erstellen, weil ich davon ausgehe, dass es vom vorhergehenden Ablauf (scannen, ect.) bereits besteht.
Oder habe ich da etwas falsch verstanden?
 

mördock

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
806
Punkte für Reaktionen
17
Punkte
44
Ein bisschen falsch verstanden hat du es wohl. Ich nehme das Quellverzeichnis und erstelle in diesem einen weiteren Ordner "ocr". War vielleicht von mir komisch formuliert. "Zielverzeichnis ist gleich Quellverzeichnis/OCR"
 

Mike0185

Benutzer
Mitglied seit
26. Jun 2012
Beiträge
447
Punkte für Reaktionen
14
Punkte
24
GuMo,

der "Sicherheitsberater" stuft den Crontab als kritisch ein.

sicherheitsberater.jpg
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
Das lässt sich leider nicht vermeiden und deshalb hatte ich darauf hingewiesen (auch in synOCR). Der DSM weiß halt nicht, was synOCR macht. Der Sicherheitsberater bewertet hier nicht den Inhalt eines Croneintrages, sondern lediglich die nicht vom DSM autorisierte Änderung des Crontabs.
  • Es besteht die Möglichkeit, über den integrierten Zeitplaner einen Zeitplan zu erstellen, oder ihr nutzt die Beschreibung (Hilfe-Seite), um einen Zeitplan über den DSM-Aufgabenplaner einzurichten. Beim integrierten Zeitplaner ist zu beachten, dass der DSM-Sicherheitsberater den zusätzlichen Croneintrag (da für DSM unbekannt) bemängeln wird.

Bildschirmfoto 2019-01-21 um 12.49.58.jpg

Wenn das stört, bitte wie unter 'Hilfe' beschrieben, den Aufgabenplaner in der Systemsteuerung verwenden.
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
synOCR_v0.10.0

synOCR v0.10.0

IMPLEMENTIERUNGEN:
- es kann nach Tags im OCR-Text gesucht werden
- es kann nach Datum im OCR-Text gesucht werden
- es kann eine eigene Umbenennungssyntax angegeben werden
- Tags können einer Kategorie zugeordnet werden (entsprechende Unterordner werden im Zielordner erstellt)

BUGFIXES:
- ein fehlender Zielordner wurde ggf. nicht erstellt
- der Zähler für offene Jobs war z.T. nicht korrekt



Das Tagging hatte ich eigentlich gar nicht geplant, weil ich es nicht brauche, aber wenn ihr es euch nun mal so sehr wünscht … :cool:

Dazu noch ein paar Erklärungen:
Tags sollten aus einzelnen Wörtern bestehen und durch Semikolon getrennt werden. Die angegebenen Tags werden im Dokument gesucht und stehen für die Umbenennung zur Verfügung.
z.B.: Rechnung;Arbeit;Versicherung

Tags können auch durch ein Gleichheitszeichen einer Kategorie (für Unterordner) zugeordnet werden (greift nur, sofern man auch die Kategorieordner [nachstehende Option] verwendet).
z.B.: Rechnung;HUK24=Versicherung;Allianz=Versicherung
"HUK24" und "Allianz" steht dann zwar in dem jeweiligen Dateinamen, aber beide Dokumente werden in den gemeinsamen Kategorieordner "Versicherung" verschoben.

Fertige PDFs kann man mit einer Bestimmten Syntax umbenennen lassen. Folgende Variablen sind in Kombination mit Fließtext möglich (Sonderzeichen können unvorhersehbare Folgen haben!):
§d (Datum / Tag)
§m (Datum / Monat)
§y (Datum / Jahr)
§tag (gefundene, oben angegebene Tags)
§tit (Titel der Originaldatei)

§y-§m-§d_§tag_§tit erzeugt z.B. 2018-12-09_#Rechnung_00376.pdf

Datumsangaben werden zuerst im Dokument gesucht. Wenn erfolglos, wird das Dateidatum verwendet.


Bitte testet bei euch die korrekte Vertaggung und Kategorisierung. Ich habe es zwar versucht mit vielen Kombinationen zu testen, aber in freier Wildbahn gibt es ja immer wieder ungeahnte Konstellationen.
 

whocares

Benutzer
Mitglied seit
10. Okt 2018
Beiträge
52
Punkte für Reaktionen
1
Punkte
8
Das hört sich alles großartig an. Komme leider erst am Wochenende dazu, das ausgiebig zu testen :eek:
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
Das mit den Tags finde ich ja klasse. Ein erster Test von mir verlief auch super, sprich überall hingen die Tags jeweils hinten dran.

Mit dem Datum habe ich nicht getestet, da die gescannten Dokumente schon das Datum im Dateinamen haben.
 

HaukeM

Benutzer
Mitglied seit
27. Jan 2019
Beiträge
8
Punkte für Reaktionen
0
Punkte
1
Hallo, ich habe das GUI gerade selbst installiert und benutzt. Es hat auf Anhieb und total super funktioniert. Klasse gemacht. Eine tolle Anwendung.

Ich habe ein paar Anmerkungen bzw. Anregungen zur Nutzung der Tags.

Ich scanne die Dokumente per HP Officejet automatisch in PDFs. Diese lasse ich vom Drucker direkt auf der DSM in einem eigenen Bereich "volume1/scan" kopieren. Der Drucker legt die Dateien unter einem einzustellenden Dateinmane+<nr> ab. Es ist dabei nicht von HP vorgesehen, dass man Variablen nutzen kann, um z.B. das Datum der Erstellung abzulegen.
Ich würde deshalb Tags benötigen, die fest auf das Datum der Quelldatei zeigen und nicht automatisch aus dem Dokument erkannt werden und dann entsprechend nicht das gewünschte Ergebnis liefern. Ich habe z.B. ein Zeugnis von meinem Sohn gescannt und darin kommt sein Geburstsdatum als erstes Datum vor...
Wie wäre es mit der Möglichkeit das automatische finden von Datumsangaben im Text abschalten zu können, oder man definiert ein weiteres Set von Tag die sich immer fest auf das Datum der Quelldatei beziehen.

Auf langer Sicht wäre es vielleicht auch sinnvoll erweiterte Formatdefinitionen von y, m und t, wie z.B. in Datumsfeldern von Tabellenkalkulationen zu erlauben. So etwas wie y, yy, yyyy =<einstellig Jahr>, <zweistellig Jahr, leading zero>, <vierstellig Jahr>; m, mm, mmm =<einstellig Monat>, <zweistellig Monat, leading zero>, <ausgeschriebener Montag als Text> und t, tt, =<Tag>, <zweistellig Tag, leading zero>.
 

HaukeM

Benutzer
Mitglied seit
27. Jan 2019
Beiträge
8
Punkte für Reaktionen
0
Punkte
1
Ich habe soeben noch einmal eine ganze Reihe von Dateien verarbeitet. Eine war dabei bei der es einen Fehler gab.
Falls OCRmyPDF eine Datei nicht bearbeiten kann, und damit dann die Ausgabetatei nicht erzeugt wurde, dann bleibt die Quelldatei erhalten. Diese wird dann bei jedem erneuten Lauf immer wieder angefasst, es gibt wieder einen Fehler, usw. Müsste man nicht diese Datei speziell behandeln, in einen anderen Ordner verschieben, damit diese Datei nicht immer wieder erneut versucht wird...

Hier den Inhalt der zugehörigen Log Datei:
VERARBEITE: --> <blinded>.pdf (Sun Jan 27 18:56:35 CET 2019)
(temp. Zieldatei: /volume1/scan/ocrout/<blinded>.pdf)

--> OCRmyPDF-LOG:
INFO - reading file from standard input
ERROR - (Ghostscript text extraction failed
/tmp/com.github.ocrmypdf.3agy0w5o/origin.repaired.pdf
**** Error reading a content stream. The page may be incomplete.
Output may be incorrect.
**** Error reading a content stream. The page may be incomplete.
Output may be incorrect.
**** Error reading a content stream. The page may be incomplete.
Output may be incorrect.
**** Error reading a content stream. The page may be incomplete.
Output may be incorrect.
**** Error: File did not complete the page properly and may be damaged.
Output may be incorrect.
Error: /rangecheck in --pdfshowpage_finish--
Operand stack:
--dict:9/17(L)-- --nostringval-- -1 --nostringval--
Execution stack:
%interp_exit .runexec2 --nostringval-- pdfshowpage_finish --nostringval-- 2 %stopped_push --nostringval-- pdfshowpage_finish pdfshowpage_finish false 1 %stopped_push 2045 1 3 %oparray_pop 2044 1 3 %oparray_pop 2025 1 3 %oparray_pop 2026 1 3 %oparray_pop pdfshowpage_finish pdfshowpage_finish 2 1 2 pdfshowpage_finish %for_pos_int_continue 2029 1 7 %oparray_pop pdfshowpage_finish pdfshowpage_finish
Dictionary stack:
--dict:960/1684(ro)(G)-- --dict:1/20(G)-- --dict:84/200(L)-- --dict:84/200(L)-- --dict:133/256(ro)(G)-- --dict:310/450(ro)(G)-- --dict:30/32(L)-- --dict:6/9(L)-- --dict:9/20(L)--
Current allocation mode is local

GPL Ghostscript 9.26: Unrecoverable error, exit code 1
)
<-- OCRmyPDF-LOG-END

L=> fehlgeschlagen! (Zieldatei ist leer oder nicht vorhanden)
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat