synOCR synOCR - GUI für OCRmyPDF

force · 07. Okt 2019

Hallo zusammen

Ich bin schon ewig auf der Suche nach einem geeigneten OCR Tool und habe mit Freude diesen Beitrag gelesen. Leider hat es bei mir aber noch nicht ganz geklappt.

Die Installation war problemlos und Anpassen der Konfiguration ebenso. Unter Allgemein wird auch korrekt angezeigt, dass im Quellordner 3 Dateien warten. Wenn ich dann aber den Durchlauf manuell starte, klappt es nicht. Fehlermeldung ist bei allen 3 Dateien:

Rich (BBCode):

    VERARBEITE:       --> 20190922_doc_000099.pdf (Mon Oct  7 16:03:29 CEST 2019)
                          temp. Zieldatei: /tmp/tmp.UbH8chcQ0R/20190922_doc_000099.pdf

                      --> OCRmyPDF-LOG:
                       ./synOCR.sh: line 249: /usr/local/bin/docker: No such file or directory
                      <-- OCRmyPDF-LOG-END

Ich habe im Log File auch gesehen, dass kein Zielverzeichnis angegeben ist, sondern zweimal Quellverzeichnis. Könnte auch nur ein Typo sein, aber ich wollte mal nachfragen, ob ihr eine Idee habt, wieso es nicht funktioniert.

Rich (BBCode):

Quellverzeichnis:         /volume2/scan-input/todo/
Quellverzeichnis:         /volume2/documents/01-Dokumentenablage/_TODO/

Vielen Dank im Voraus und liebe Grüsse
Force

peterhoffmann · 07. Okt 2019

Du hast Docker nicht installiert.

Welche DS hast du?

geimist · 07. Okt 2019

force schrieb:
… Könnte auch nur ein Typo sein, …

So ist es - noch nie aufgefallen

Für den Rest, bitte Peters Frage beantworten. Das Paket sollte sich nur auf einer Docker-kompatiblen DS installieren lassen, setzt Docker aber zum Installationszeitpunkt nicht voraus. Eine entsprechende Prüfung lasse ich in Zukunft im LOG mit ausgeben.

force · 08. Okt 2019

peterhoffmann schrieb:
Du hast Docker nicht installiert.

Welche DS hast du?

Hallo Peter

Ich habe die DS718+ und ich hatte Docker wirklich nicht installiert. Ich hatte es letztens deinstalliert und bin aber davon ausgegangen, dass Docker noch installiert ist.

Vielen Dank für die schnelle Hilfe. Nun hat es geklappt!

Ich werde nun mit der Konfiguration spielen und schauen, wie ich alles in meinen Workflow integrieren kann!

Gruss

force · 08. Okt 2019

Hallo zusammen

Ein geniales Tool, vielen Dank!

Ich habe jetzt mehrere Dokumente gescannt und dabei sind ein paar Fragen aufgetaucht:

Rotate pages
Bei mir werden die Seiten nicht gedreht, wenn sie auf dem Kopf sind. Ich habe es mit -rd versucht, aber auch ausgeschrieben mit --rotate-pages --deskew.

skip empty pages
Ist es möglich leere Seiten zu entfernen? Bei OCRmyPDF habe ich keine wirkliche Antwort gefunden, bis auf eine neue Möglichkeit mit Plugins zu arbeiten: https://github.com/jbarlow83/OCRmyPDF/issues/12

Kategorien
Wie würdet ihr diese Konfiguration aufbauen?

Ich habe einen genialen Brother Scanner, bei welchem ich bereits beim Scannen eine Kategorie wählen kann. Dadurch kann ich den Dateinamen (und den Speicherort) bereits beim Scannen definieren.
Ich habe eine Ordnerstruktur, die ich wenn möglich beibehalten möchte: Arbeitgeber, Gesundheit, Konten und Karten, Quittungen, Todo etc.
Ich möchte so wenig wie möglich selber einordnen müssen. Quittungen z. B. sollten keine manuelle Einsortierung mehr benötigen

Ich habe es mir so angedacht, dass ich alle Scans in einen Inputordner scanne und jeweils einen anderen Dateinamen (quittung-1.pdf, rechnung-1.pdf, arbeitgeber-1.pdf) vergebe direkt beim Scannen. Mit synOCR würde ich sie gerne gemäss dem Dateinamen in verschiedene Ordner einordnen. Geht das?

Liebe Grüsse
Force

lueddich · 18. Okt 2019

Hey Stephan,

eine tolle GUI hast Du hier gemacht, wirklich prima! Vielen Dank, das bringt mich einer organisierten Ablage deutlich näher

Ich würde gerne die Funktion nutzen, dass die Zieldateien in Tag-basierten Unterordnern landen und habe dies auch aktiviert ("Ziel-PDF in Kategorieordner einsortieren"), jedoch geschieht dies schlicht nicht. Die Tags sind im Dateinamen vorhanden auf Basis der "OCR Rename-Syntax", liegen aber einfach nur im Zielordner.

Müssen die Tag-Ordner manuell erstellt werden?

Danke!

Viele Grüße,
Jan

geimist · 18. Okt 2019

Hallo Jan,

Tagordner gibt es nicht, nur Kategorieordner. Es steht dir natürlich frei, jedem Tag die gleichnamige Kategorie zuzuweisen. (Tag1=Tag1;Tag2=Tag2;…)

geimist · 18. Okt 2019

Hallo Force,

sorry für die späte Anwort - ist irgendwie untergegangen …

force schrieb:
… Rotate pages
Bei mir werden die Seiten nicht gedreht, wenn sie auf dem Kopf sind. Ich habe es mit -rd versucht, aber auch ausgeschrieben mit --rotate-pages --deskew. …

Darauf hat synOCR keinen Einfluss. Die Parameter steuern direkt OCRmyPDF. Ohne es jetzt nachgesehen zu haben, vermute ich, dass nur eine 90° Rotation erkannt wird, aber nicht 180°. Prinzipiell ist der Parameter dafür korrekt.

… skip empty pages
Ist es möglich leere Seiten zu entfernen? Bei OCRmyPDF habe ich keine wirkliche Antwort gefunden, bis auf eine neue Möglichkeit mit Plugins zu arbeiten: https://github.com/jbarlow83/OCRmyPDF/issues/12 …

Auch dafür kann dir synOCR keine Lösung anbieten, die über den Funktionsumfang von OCRmyPDF hinausgeht. Wie der Entwickler dort ja schrieb, scheint die Erkennung nicht trivial zu sein.

…Kategorien
Wie würdet ihr diese Konfiguration aufbauen?

Ich habe einen genialen Brother Scanner, bei welchem ich bereits beim Scannen eine Kategorie wählen kann. Dadurch kann ich den Dateinamen (und den Speicherort) bereits beim Scannen definieren.

Ich habe eine Ordnerstruktur, die ich wenn möglich beibehalten möchte: Arbeitgeber, Gesundheit, Konten und Karten, Quittungen, Todo etc.

Ich möchte so wenig wie möglich selber einordnen müssen. Quittungen z. B. sollten keine manuelle Einsortierung mehr benötigen

…

Wenn dir die Tag / Kategorieerkennung von synOCR nicht reicht, könntest du für jeden Ordner in deiner Struktur ein eigenes Profil / Inputordner anlegen und alle Zielordner in dasselbe Verzeichnis legen.

… Ich habe es mir so angedacht, dass ich alle Scans in einen Inputordner scanne und jeweils einen anderen Dateinamen (quittung-1.pdf, rechnung-1.pdf, arbeitgeber-1.pdf) vergebe direkt beim Scannen. Mit synOCR würde ich sie gerne gemäss dem Dateinamen in verschiedene Ordner einordnen. Geht das?

synOCR wertet beim Einsortieren keine Dateinamen aus - geht also nicht

lueddich · 18. Okt 2019

Hallo Stephan,

sorry - das war missverständlich. Ich meinte das englische tag, nicht den deutschen Tag

Also wenn ich bspw. bei den zu suchenden tags "Rechnung" ohne die Anführungszeichen angegeben habe, benennt mir das Tool die Datei entsprechend auch so um, dass "#Rechnung" mit im Dateinamen auftaucht. Ich dachte jedoch, es würden auch Ordner basierend auf den gefundenen tags angelegt werden, wenn man "Ziel-PDF in Kategorieordner einsortieren" ausgwählt hat. Was macht die Funktion denn?

Danke!

Gruß, Jan

geimist · 18. Okt 2019

Ich habe dich schon richtig verstanden

Das Gleichheitszeichen trennt die tags von den Kategorien. Vergebe jeder Kategorie einfach den gleichen Namen wie den tags: Rechnung=Rechnung;Versicherung=Versicherung;…

lueddich · 18. Okt 2019

#facepalm ...

Danke, klarer Fall von RTFM - read the f***** manual

Das habe ich schlicht überlesen und werde es gleich mal umsetzen.

Viele Grüße, Jan

peterhoffmann · 22. Okt 2019

*erledigt*
Alles Blödsinn. Mein Fehler.

geimist · 22. Okt 2019

Das ist ein Installationszähler als Ping auf eine leere Datei deren Downloads gezählt werden (guckst du hier in Zeile 107). Es wird (eigentlich) nur einmal im Monat ausgeführt - evtl. versucht es das Skript halt jedes Mal erneut, wenn der Zugriff verweigert wird.

peterhoffmann · 22. Okt 2019

Alles stop... ich habe gerade festgestellt, dass ich nicht nur synocr, sondern auch synotr starte. *asche-auf-mein-haupt*

geimist · 22. Okt 2019

Ich sehe mir das nochmal an …

peterhoffmann · 22. Okt 2019

Nee, brauchst du nicht. Ich hatte nur ein Brett vorm Kopf und habe nicht gesehen, dass synotr (v2.0) auch aufgerufen wird.
Alle meine Beiträge habe ich überarbeitet bzw. großteils gelöscht.
Sorry für die scheuen Pferde.

geimist · 22. Okt 2019

Ich wusste nicht, dass du auch synOTR nutzt.
Jetzt wusste ich auch keinen Rat mehr, da es die einzige Stelle im Code war, wo meine Domain hinterlegt war (hatte es mir gerade nochmal angesehen).

peterhoffmann · 22. Okt 2019

geimist schrieb:
Ich wusste nicht, dass du auch synOTR nutzt.

Bei mir läuft noch die uralte 2.0, da ich nur das "dekodieren" brauche.
Da ich aber in letzter Zeit OTR sehr selten benutze, habe ich nicht daran gedacht.

Krami · 23. Okt 2019

Schönen guten Morgen,

dass ist mein erster Post hier im Forum und ich bin begeistert von der Lösung. Schon vor Jahren habe ich mal einen Versuch unternommen mein zu Hause papierlos zu bekommen.
Ich habe es aber wieder sien gelassen weil es alles noch zu umständlich für mich und meine Frau war.

Durch einen Trigger, mein Fileserver ist kaputt gegangen und der Anschaffung der DS218+ als Einstieg, habe ich einen weiteren Versuch unternommen und ich bin begeistert. Vielen vielen Dank für die hier vorgestellte Lösung!

Mein Workflow ist nun komplett und ich kann übergehen und sämtlich Dokumente einzuscannen.

Nochmals Danke
und Gruss
Stefan (Krami)

geimist · 23. Okt 2019

Herzlich willkommen hier im Forum, Stefan

Freut mich, dass es dich freut

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Kaffeautomat