synOCR synOCR - GUI für OCRmyPDF

aHTo5Dh2LU1e69YcWwZg · 19. Feb 2020

Danke - Kein Problem! Ich bin froh, dass ich keine Texterkennung von Hand machen muss! Und mit der Volltextsuche finde ich trotzdem die Dokumente die ich brauche!

floflo · 20. Feb 2020

Vielen Dank für das schöne Package!

Ich hab für's renaming bei mir noch folgendes in's Script gepackt:

header=$(head -n 1 $searchfile | sed "s/[^[:alpha:].-]//g")

Bin noch nicht 100% zufrieden mit dem Ergebnis (will noch so Sachen ausprobieren wie "Nehme die ersten 5 Wörter" statt die erste Zeile, und am sed pattern sollte man auch noch schrauben), aber bei Dateinamen wie "2020-02-20_InformationzurVerarbeitungIhrerDaten_BRWC0B5D72AAF07_...." hab ich jetzt schon ein bisschen mehr Ahnung um was es sich in der Datei handelt (ohne Tags zu konfigurieren)

Wäre ja vielleicht auch ne Idee für das offizielle Release

dirtyheizer · 24. Feb 2020

Hi,
erstmal Danke an das Package auch von mir.
Mein zu suchende TAGs sind die Folgenden:

Rechnung;Arbeit;Versicherung;

Es wäre hilfreich, wenn hier case sensitive gesucht werden würde,
In meinem Fall, ein Infoschreiben, wurde im Dateinamen mit Arbeit umbenannt, weil im PDF "Bearbeitungs-Nr. " gefunden wurde.

Ist das möglich, die Tags case sensitive (evtl. auch über ein separten Flag) umzusetzen?

Vielen Dnak im Voraus.
Mit freundlichen Grüßen

geimist · 24. Feb 2020

Du kannst mit vorangestelltem Paragrafenzeichen (§) die exakte Schreibweise definieren, was den Paramter -w für grep setzt:

Rich (BBCode):

-w, --word-regexp         force PATTERN to match only whole words

Rechnung;§Arbeit;Versicherung; würde also in deinem Fall zum gewünschten Ergebnis führen. Unabhängig davon ist die Suche case insensetiv.

geimist · 24. Feb 2020

floflo schrieb:
… Ich hab für's renaming bei mir noch folgendes in's Script gepackt:
header=$(head -n 1 $searchfile | sed "s/[^[:alpha:].-]//g")
…
Wäre ja vielleicht auch ne Idee für das offizielle Release

Das ist eine schöne Idee, aber bei mir waren die Ergebnisse zu wenig hilfreich. Sollte die Tagerkennung in Zukunft umfangreicher gestaltet werden können, wäre diese sicherlich die zielführendere Lösung für aussagekräftige Dateinamen.

Vielen Dank fürs Gedanken-machen - ich freue mich immer über Input

Zer0x · 25. Feb 2020

Hi, erstmal super und Danke für das Klasse Tool! Donation ging auch schon raus

Mal eine Frage: Gibt es irgendwo ein paar Presets für die Tags an denen man sich etwas orientieren kann bzw. was Sinn macht?
Tu mir gerade schwer ein richtiges Konzept aufzubauen. (Habe jetzt auch nicht alle Seiten durchgelsen)

Danke im Voraus!

Species8472 · 25. Feb 2020

Danke für synOCR.

Versuche mich gerade ein bisschen "einzufuchsen". Ich habe einen großen Berg Papier zu digitalisieren. Würde gerne alle Dokumente in einem Rutsch scannen und dann von synOCR nicht nur umbenennen und verschlagworten, sondern auch in einzelne PDFs nach bestimmten Kriterien splitten lassen. Beispiel: Jede Seite nacheinander durchsuchen und wenn bestimmte Worte oder Wortfolgen auf dieser Seite zu finden sind, dann jeweils splitten. Beispiele: "Sehr geehrter Herr Mayer", "Sehr geehrte Frau Mustermann", "Rechnung", Die Einzeldokumente dann ganz normal weiterverarbeiten (umbenennen und verschlagworten).

Workflow also: 50 Seiten Scannen in eine Datei Scan_001.pdf --> Anhand der Wortliste in einzelne PDF splitten (z.B. in Scan_001_Teil_1) --> Einzelne PDF wie gewohnt in synOCR umbenennen und verschlagworten.

Genial wäre es noch, die fertigen PDFs in eine eigene Dokumentenstruktur zu verschieben.

Hat da schon jemand in diese Richtung etwas gebastelt?

geimist · 25. Feb 2020

Zer0x schrieb:
…Mal eine Frage: Gibt es irgendwo ein paar Presets für die Tags an denen man sich etwas orientieren kann bzw. was Sinn macht?…

Das lässt sich schwer pauschalisieren. Es kommt halt auf deinen Content an. Speziellen Sachen weise ich eine Kategorie zu ( …;Tag=Kategorie_so_und_so;…). Z.B. kommt alles, was zu einer Versicherung gehört, in einen eigenen Ordner ( [FONT=&quot]…;Allianz=Versichung;1 00 23 785=Versicherung;HUK24=Versicherung;…[/FONT])

Das Tagging soll ja möglichst in Zukunft auch noch variabler werden …

geimist · 25. Feb 2020

Species8472 schrieb:
… Würde gerne alle Dokumente in einem Rutsch scannen und dann von synOCR nicht nur umbenennen und verschlagworten, sondern auch in einzelne PDFs nach bestimmten Kriterien splitten lassen. …

Ich bin gerade am Sondieren bzgl. des splitten. D.h. aktuell geht es so noch nicht. Du müsstest also jedes Dokument einzeln scannen. Der Aufwand ist beim Einstieg ins papierlose Büro sicherlich erhöht, aber im Alltag spielt es wahrscheinlich keine große Rolle, ob man Dokumente einzeln oder auf einmal scannt.

… Beispiel: Jede Seite nacheinander durchsuchen und wenn bestimmte Worte oder Wortfolgen auf dieser Seite zu finden sind, dann jeweils splitten. Beispiele: "Sehr geehrter Herr Mayer", "Sehr geehrte Frau Mustermann", "Rechnung",…

Das sehe ich problematisch. Auf diese Art würden sicherlich viele mehrseitige Dokumente zerstört, weil nicht auf jeder Seite alle Merkmale vorhanden sind.
Wahrscheinlich wird der User in Keyword definieren können, bei welchem ein Split erfolgt (Separator sheet). Leerseiten wären auch eine Möglichkeit, wenn auch aufwändiger und unsicherer.

polo130312 · 26. Feb 2020

Danke für synOCR
Ich bin ebenfalls gerade dabei mein privates Büro auf papierlos umustellen und versuche soviel wie nur möglich auf meiner DS218+ abzubilden. Was sich mir bisher nicht erschlossen hat, welches Docker Image das beste für den Einsatz mit synOCR ist? Wird jbarlow83/ocrmypdf noch gepflegt bzw. weiter entwickelt, oder wäre ein anderes Image zukunftssicherer?

geimist · 26. Feb 2020

Das ocrmypdf Image von jbarlow83 ist das offizielle und wird regelmäßig aktualisiert. Darin sind aber nur 3 oder 4 Sprachen enthalten. Wenn du also eine abweichende Sprache benötigst, so kannst du mein ocrmypdf-polyglot Image aus dem Dockerhub laden, welches das offizielle Image als Grundlage hat aber zusätzlich alle möglichen tesseract-Sprachen enthält.

Grundsätzlich brauchst du erstmal gar nichts manuell auswählen. Einfach synOCR ausprobieren, wodurch das Standardimage geladen wird.

hamma50 · 26. Feb 2020

Du brauchst kein Image. Einfach nur das synOCR Paket installieren. Rest läuft automatisch.

polo130312 · 27. Feb 2020

Danke für die Hilfe! Das synOCR lässt sich wirklich kinderleicht einrichten und liefert super Ergebnisse.
Bei Automatisierung des Aufgabenstarts mittes des integrierten Aufgabenplaners läuft synOCR auch regelmäßig gemäß Einstellung (natürlich mit Hinweis im Sicherheitsberater, den man benutzerdefiniert ausblenden kann...).
Leider funktioniert bei mir die manuelle Aufgabenplanung entsprechend der FAQ-Seite nicht. Ist beim Befehlsaufruf mit dem Aufgabenplaner nocht etwas zu beachten, oder muss der Befehl noch angepasst werden?

Yippie · 27. Feb 2020

Also meine manuellen Einstellungen im DSM-Aufgabenplaner (nicht im synOCR) sind wie folgt:

Benutzer: root
Zeitplan: täglich, alle 5 Minuten
Aufgabeneinstellung, Befehl ausführen: bash /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh

Michael

polo130312 · 27. Feb 2020

Hatte zuerst das "bash" nicht im Feld und dachte es liegt daran. Habe nun Deine Einstellungen übernommen, läuft aber dennoch nicht...

polo130312 · 27. Feb 2020

ohhh man...schlimm, wenn der Fehler vor dem Bildschirm sitzt...
Ich hatte in meinem Eingangsordner zwar 2 PDF, allerdings hatte ich vergessen, das OCR Such-Präfix in den Dateinamen rein zu schreiben. Da kann ich lange warten und mich wundern, warum synOCR "nicht läuft"...
Die Aufgabe läuft nun sauber gemäß Planung...

VG, Stefan

Garachico · 02. Mrz 2020

Hallo zusammen,

erst einmal vielen Dank für synOCR. Tolles Tool!
Ich habe dazu zwei Fragen:

1. Damit die zu vergebenden Tags im Dateinamen nicht zusammengeschrieben werden, ist es nötig, nach jedem Tag noch ein Leerzeichen hinzuzufügen (Beispiel: "Commerzbank ;Depot ;...")
Ansonsten sieht das im Dateinamen aufgrund der automatischen Umbenennung so aus "2020-02-21 CommerzbankDepot.pdf".
Ist das so gewollt?

2. Gibt es eine Möglichkeit die Reihenfolge der Tags festzulegen, wie sie dann im Dateinamen auftauchen? Ich habe beispielsweise in meiner Tagliste erst Commerzbank und dann Depot als Tag vergeben. Dennoch bekomme ich eine Datei mit dem Namen "2020-02-21 Depot Commerzbank.pdf", also zuerst „Depot", was ich nicht möchte.

Danke und viele Grüße,
Jens

Yippie · 02. Mrz 2020

Garachico schrieb:
1. Damit die zu vergebenden Tags im Dateinamen nicht zusammengeschrieben werden, ist es nötig, nach jedem Tag noch ein Leerzeichen hinzuzufügen (Beispiel: "Commerzbank ;Depot ;...")
Ansonsten sieht das im Dateinamen aufgrund der automatischen Umbenennung so aus "2020-02-21 CommerzbankDepot.pdf".
Ist das so gewollt?

Nutze dieses Feature zwar nicht, aber wenn ich's nutzen würde, dann fände ich es OK, dass ein gewolltes Leerzeichen auch explizit angegeben werden muss. Grund: Was sollen alle diejenigen machen, die kein Leerzeichen im Dateinamen wünsche? Auch diese Möglichkeit muss in Betracht gezogen werden.

Michael

Datenbunker · 02. Mrz 2020

Bei mir werden PDFs welche in Tagordner einsortiert werden sollen, einfach gelöscht bzw. der Ordner wird nicht angelegt, wenn die Variable "Tags im Dateinamen kennzeichnen" leer ist.

Wenn ich # drinnen lasse, dann heisst der Ordner "%23abc".

geimist · 02. Mrz 2020

Garachico schrieb:
1. Damit die zu vergebenden Tags im Dateinamen nicht zusammengeschrieben werden, ist es nötig, nach jedem Tag noch ein Leerzeichen hinzuzufügen (Beispiel: "Commerzbank ;Depot ;...") Ansonsten sieht das im Dateinamen aufgrund der automatischen Umbenennung so aus "2020-02-21 CommerzbankDepot.pdf".

Dafür gibt es in der Konfiguration die Möglichkeit, die Tagkennzeichnung anzupassen (z.B. mit einer # oder _ oder auch kombiniert)

2. Gibt es eine Möglichkeit die Reihenfolge der Tags festzulegen, wie sie dann im Dateinamen auftauchen? Ich habe beispielsweise in meiner Tagliste erst Commerzbank und dann Depot als Tag vergeben.

Kehre einfach die Anordnung um - derzeit wird die Liste der Reihe nach abgearbeitet, aber Funde immer vor vorherige Funde gesetzt - ich kann mich gerade nicht an den Grund erinnern, warum ich das gerade so gemacht hatte - vielleicht gibt es auch keinen. Dann könnte ich das einfach ändern (bringt allerdings wieder die Reihenfolge von denjenigen durcheinander, die sich bereits angepasst haben)