synOCR synOCR - GUI für OCRmyPDF

force

Benutzer
Mitglied seit
07. Okt 2019
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Hallo zusammen

Ich bin schon ewig auf der Suche nach einem geeigneten OCR Tool und habe mit Freude diesen Beitrag gelesen. Leider hat es bei mir aber noch nicht ganz geklappt.

Die Installation war problemlos und Anpassen der Konfiguration ebenso. Unter Allgemein wird auch korrekt angezeigt, dass im Quellordner 3 Dateien warten. Wenn ich dann aber den Durchlauf manuell starte, klappt es nicht. Fehlermeldung ist bei allen 3 Dateien:

Rich (BBCode):
    VERARBEITE:       --> 20190922_doc_000099.pdf (Mon Oct  7 16:03:29 CEST 2019)
                          temp. Zieldatei: /tmp/tmp.UbH8chcQ0R/20190922_doc_000099.pdf

                      --> OCRmyPDF-LOG:
                       ./synOCR.sh: line 249: /usr/local/bin/docker: No such file or directory
                      <-- OCRmyPDF-LOG-END


Ich habe im Log File auch gesehen, dass kein Zielverzeichnis angegeben ist, sondern zweimal Quellverzeichnis. Könnte auch nur ein Typo sein, aber ich wollte mal nachfragen, ob ihr eine Idee habt, wieso es nicht funktioniert.

Rich (BBCode):
Quellverzeichnis:         /volume2/scan-input/todo/
Quellverzeichnis:         /volume2/documents/01-Dokumentenablage/_TODO/


Vielen Dank im Voraus und liebe Grüsse
Force
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
… Könnte auch nur ein Typo sein, …
So ist es - noch nie aufgefallen :rolleyes:
Für den Rest, bitte Peters Frage beantworten. Das Paket sollte sich nur auf einer Docker-kompatiblen DS installieren lassen, setzt Docker aber zum Installationszeitpunkt nicht voraus. Eine entsprechende Prüfung lasse ich in Zukunft im LOG mit ausgeben.
 

force

Benutzer
Mitglied seit
07. Okt 2019
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Du hast Docker nicht installiert.

Welche DS hast du?

Hallo Peter

Ich habe die DS718+ und ich hatte Docker wirklich nicht installiert. Ich hatte es letztens deinstalliert und bin aber davon ausgegangen, dass Docker noch installiert ist.

Vielen Dank für die schnelle Hilfe. Nun hat es geklappt! :cool:

Ich werde nun mit der Konfiguration spielen und schauen, wie ich alles in meinen Workflow integrieren kann!

Gruss
 

force

Benutzer
Mitglied seit
07. Okt 2019
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Hallo zusammen

Ein geniales Tool, vielen Dank!

Ich habe jetzt mehrere Dokumente gescannt und dabei sind ein paar Fragen aufgetaucht:

Rotate pages
Bei mir werden die Seiten nicht gedreht, wenn sie auf dem Kopf sind. Ich habe es mit -rd versucht, aber auch ausgeschrieben mit --rotate-pages --deskew.

skip empty pages
Ist es möglich leere Seiten zu entfernen? Bei OCRmyPDF habe ich keine wirkliche Antwort gefunden, bis auf eine neue Möglichkeit mit Plugins zu arbeiten: https://github.com/jbarlow83/OCRmyPDF/issues/12

Kategorien
Wie würdet ihr diese Konfiguration aufbauen?

  • Ich habe einen genialen Brother Scanner, bei welchem ich bereits beim Scannen eine Kategorie wählen kann. Dadurch kann ich den Dateinamen (und den Speicherort) bereits beim Scannen definieren.
  • Ich habe eine Ordnerstruktur, die ich wenn möglich beibehalten möchte: Arbeitgeber, Gesundheit, Konten und Karten, Quittungen, Todo etc.
  • Ich möchte so wenig wie möglich selber einordnen müssen. Quittungen z. B. sollten keine manuelle Einsortierung mehr benötigen

Ich habe es mir so angedacht, dass ich alle Scans in einen Inputordner scanne und jeweils einen anderen Dateinamen (quittung-1.pdf, rechnung-1.pdf, arbeitgeber-1.pdf) vergebe direkt beim Scannen. Mit synOCR würde ich sie gerne gemäss dem Dateinamen in verschiedene Ordner einordnen. Geht das?

Liebe Grüsse
Force
 

lueddich

Benutzer
Mitglied seit
10. Dez 2012
Beiträge
52
Punkte für Reaktionen
8
Punkte
8
Hey Stephan,

eine tolle GUI hast Du hier gemacht, wirklich prima! Vielen Dank, das bringt mich einer organisierten Ablage deutlich näher ;)

Ich würde gerne die Funktion nutzen, dass die Zieldateien in Tag-basierten Unterordnern landen und habe dies auch aktiviert ("Ziel-PDF in Kategorieordner einsortieren"), jedoch geschieht dies schlicht nicht. Die Tags sind im Dateinamen vorhanden auf Basis der "OCR Rename-Syntax", liegen aber einfach nur im Zielordner.

Müssen die Tag-Ordner manuell erstellt werden?

Danke!

Viele Grüße,
Jan
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
Hallo Jan,

Tagordner gibt es nicht, nur Kategorieordner. Es steht dir natürlich frei, jedem Tag die gleichnamige Kategorie zuzuweisen. (Tag1=Tag1;Tag2=Tag2;…)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
Hallo Force,

sorry für die späte Anwort - ist irgendwie untergegangen … :rolleyes:

Rotate pages
Bei mir werden die Seiten nicht gedreht, wenn sie auf dem Kopf sind. Ich habe es mit -rd versucht, aber auch ausgeschrieben mit --rotate-pages --deskew. …
Darauf hat synOCR keinen Einfluss. Die Parameter steuern direkt OCRmyPDF. Ohne es jetzt nachgesehen zu haben, vermute ich, dass nur eine 90° Rotation erkannt wird, aber nicht 180°. Prinzipiell ist der Parameter dafür korrekt.

skip empty pages
Ist es möglich leere Seiten zu entfernen? Bei OCRmyPDF habe ich keine wirkliche Antwort gefunden, bis auf eine neue Möglichkeit mit Plugins zu arbeiten: https://github.com/jbarlow83/OCRmyPDF/issues/12
Auch dafür kann dir synOCR keine Lösung anbieten, die über den Funktionsumfang von OCRmyPDF hinausgeht. Wie der Entwickler dort ja schrieb, scheint die Erkennung nicht trivial zu sein.

Kategorien
Wie würdet ihr diese Konfiguration aufbauen?

  • Ich habe einen genialen Brother Scanner, bei welchem ich bereits beim Scannen eine Kategorie wählen kann. Dadurch kann ich den Dateinamen (und den Speicherort) bereits beim Scannen definieren.
  • Ich habe eine Ordnerstruktur, die ich wenn möglich beibehalten möchte: Arbeitgeber, Gesundheit, Konten und Karten, Quittungen, Todo etc.
  • Ich möchte so wenig wie möglich selber einordnen müssen. Quittungen z. B. sollten keine manuelle Einsortierung mehr benötigen
Wenn dir die Tag / Kategorieerkennung von synOCR nicht reicht, könntest du für jeden Ordner in deiner Struktur ein eigenes Profil / Inputordner anlegen und alle Zielordner in dasselbe Verzeichnis legen.

… Ich habe es mir so angedacht, dass ich alle Scans in einen Inputordner scanne und jeweils einen anderen Dateinamen (quittung-1.pdf, rechnung-1.pdf, arbeitgeber-1.pdf) vergebe direkt beim Scannen. Mit synOCR würde ich sie gerne gemäss dem Dateinamen in verschiedene Ordner einordnen. Geht das?
synOCR wertet beim Einsortieren keine Dateinamen aus - geht also nicht
 

lueddich

Benutzer
Mitglied seit
10. Dez 2012
Beiträge
52
Punkte für Reaktionen
8
Punkte
8
Hallo Stephan,

sorry - das war missverständlich. Ich meinte das englische tag, nicht den deutschen Tag ;) Also wenn ich bspw. bei den zu suchenden tags "Rechnung" ohne die Anführungszeichen angegeben habe, benennt mir das Tool die Datei entsprechend auch so um, dass "#Rechnung" mit im Dateinamen auftaucht. Ich dachte jedoch, es würden auch Ordner basierend auf den gefundenen tags angelegt werden, wenn man "Ziel-PDF in Kategorieordner einsortieren" ausgwählt hat. Was macht die Funktion denn?

Danke!

Gruß, Jan
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
Ich habe dich schon richtig verstanden :)
Das Gleichheitszeichen trennt die tags von den Kategorien. Vergebe jeder Kategorie einfach den gleichen Namen wie den tags: Rechnung=Rechnung;Versicherung=Versicherung;…
 

lueddich

Benutzer
Mitglied seit
10. Dez 2012
Beiträge
52
Punkte für Reaktionen
8
Punkte
8
#facepalm ...

Danke, klarer Fall von RTFM - read the f***** manual ;)

Das habe ich schlicht überlesen und werde es gleich mal umsetzen.

Viele Grüße, Jan
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
Das ist ein Installationszähler als Ping auf eine leere Datei deren Downloads gezählt werden (guckst du hier in Zeile 107). Es wird (eigentlich) nur einmal im Monat ausgeführt - evtl. versucht es das Skript halt jedes Mal erneut, wenn der Zugriff verweigert wird.
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
Alles stop... ich habe gerade festgestellt, dass ich nicht nur synocr, sondern auch synotr starte. *asche-auf-mein-haupt*
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
Nee, brauchst du nicht. Ich hatte nur ein Brett vorm Kopf und habe nicht gesehen, dass synotr (v2.0) auch aufgerufen wird.
Alle meine Beiträge habe ich überarbeitet bzw. großteils gelöscht.
Sorry für die scheuen Pferde. ;)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
Ich wusste nicht, dass du auch synOTR nutzt.
Jetzt wusste ich auch keinen Rat mehr, da es die einzige Stelle im Code war, wo meine Domain hinterlegt war (hatte es mir gerade nochmal angesehen).
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
Ich wusste nicht, dass du auch synOTR nutzt.
Bei mir läuft noch die uralte 2.0, da ich nur das "dekodieren" brauche.
Da ich aber in letzter Zeit OTR sehr selten benutze, habe ich nicht daran gedacht.
 

Krami

Benutzer
Mitglied seit
23. Okt 2019
Beiträge
1
Punkte für Reaktionen
0
Punkte
1
Schönen guten Morgen,

dass ist mein erster Post hier im Forum und ich bin begeistert von der Lösung. Schon vor Jahren habe ich mal einen Versuch unternommen mein zu Hause papierlos zu bekommen.
Ich habe es aber wieder sien gelassen weil es alles noch zu umständlich für mich und meine Frau war.

Durch einen Trigger, mein Fileserver ist kaputt gegangen und der Anschaffung der DS218+ als Einstieg, habe ich einen weiteren Versuch unternommen und ich bin begeistert. Vielen vielen Dank für die hier vorgestellte Lösung!

Mein Workflow ist nun komplett und ich kann übergehen und sämtlich Dokumente einzuscannen.

Nochmals Danke
und Gruss
Stefan (Krami)
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat