synOCR synOCR - GUI für OCRmyPDF

geimist · 09. Jan 2020

Du kannst mal gucken, ob die einzelne Datei die Probleme macht (Dateiname steht in der Mail). Da das Dockerlog erst nach Abschluss des Dockerbefehls in das synOCR-Log geschrieben wird, könnte man höchstens mal (beim Festhängen des Dockercontainers) in dessen Log sehen (Docker > Container > synOCR > Buton 'Details' und hier Prozess und Protokoll)

Wolf_GP · 09. Jan 2020

Er hing an der einen Datei die bereits durchsuchbar war und mit _.pdf geendet hat.
Alles anderen sind durchgelaufen bis auf 3 die im Ordner als Errorfiles gelandet sind, aber keine Auffälligkeiten zeigen und durchsuchbar sind.
Hab die eine Datei spaßeshalber mal umbenannt (den Unterstrich entfernt) und nochmals neu gestartet (auch den Container).
Es scheint aber an der Datei selber zu hängen, jedenfalls tut sich wieder nichts und der Container läuft mit knapp 25% ohne etwas zu tun.
Werden bereits durchsuchbare Files normalerweise ignoriert oder versucht synOCR diese nochmals zu lesen und zu konvertieren?
Kann es daran liegen?

Gruß
Wolf

geimist · 09. Jan 2020

Mit dem Parameter -f kann man das erneute ocren erzwingen. Andernfalls sollte lediglich eine Meldung im Log erscheinen, aber nicht der Container klemmen.

hamma50 · 10. Jan 2020

winka schrieb:
Du meinst unter Windows?

Also dort kann man sehr wohl Netzwerklaufwerke einbinden und nutzen.

Anhang anzeigen 50725

Natürlich kann man in Windows Netzlaufwerke einbinden.

Man kann jedoch Netzlaufwerke nicht durch Windows indizieren lassen und der DS Indizierungsdienst arbeitet nur mit MAC zusammen.

winka · 10. Jan 2020

Ah. Ok. Das erklärt, dass Suchergebnisse nur langsam aufkommen.

Yippie · 10. Jan 2020

hamma50 schrieb:
Man kann jedoch Netzlaufwerke nicht durch Windows indizieren lassen und der DS Indizierungsdienst arbeitet nur mit MAC zusammen.

HA! Dacht' ich's mir doch

und dass der Syno Index Dienst nur vom Mac Finder verwendet werden kann, wurmt mich immer noch. Hab hier keinerlei Macs und es wir auch nie einen geben

legula84 · 11. Jan 2020

Moin,

danke für das tolle Tool. Das war für mich der fehlende Bausteine für die Einführung eines (nahezu) papierlosen Haushalts im Jahr 2020. Alle Dokumente, die bei uns zu Hause im Briefkasten liegen werden entweder per App (Scanbot) oder mobilem Scanner (Brother 1700w) in ein Verzeichnis auf meiner 218+ gespielt, anschließend mit dem Tool verschlagwortet und wieder in einem anderem Verzeichnis abgelegt. Darüber hinaus tagge ich einige spezielle Dateien (z.B. für die Steuererklärung) noch mit dem Tool tagspaces, damit ich die "mit einem Griff" habe. Für den Notfall ist dann immer noch die Suche über Inhalte per Volltextsuche möglich.

Als Backup geht alles nochmal regelmäßig (2 mal pro Woche) auf nen Cloud-Server von Synology in Frankfurt. Dürfte damit dann sicherer sein als ne Ablage im Ordner im Arbeitszimmer.

Super Arbeit!!

Gruß
Guido

peterhoffmann · 11. Jan 2020

legula84 schrieb:
Tool tagspaces

Kurzes OT: Reicht bei dem Tool die Freeversion oder fehlt da eine wirklich entscheidende Funktion?

legula84 · 12. Jan 2020

Moin,

ich gehe davon aus, dass die Comunity-Version reicht. Da ich das Tool aber gut finde und die Arbeit dahinter auch belohnen möchte, hab ich mir die PRO-Version gegönnt. Außerdem erhoffe ich mir, dass die auch irgendwann mal ne Volltextsuche für pdf-Dateien bekommt ;-)

Gruß
Guido

Hafer · 12. Jan 2020

Yippie schrieb:
HA! Dacht' ich's mir doch und dass der Syno Index Dienst nur vom Mac Finder verwendet werden kann, wurmt mich immer noch.

Ebenso. Habe das (vor Jahren?) Synology als Feature Request mitgeteilt, die sich brav bedankt haben und die Anfrage ansonsten auf den Stapel der unerfüllten requests gelegt haben.

Vielleicht hilt's, wenn weitere Kandidaten dieses feature fordern.

GruenerHecht72 · 12. Jan 2020

Hallo geimist,

erst mal ein großes Lob an dich! synOCR ist super praktisch und ich konnte meine eigene "Bastellösung" damit ablösen. Zwei Features fände ich noch klasse:

Nutzung eines Hot (watched) folders (https://github.com/jbarlow83/OCRmyPDF/blob/master/docs/batch.rst#hot-watched-folders)
Option, dass beim Umbenennen der Datei die Variablen §y, §m, ... aufs aktuelle Datum gesetzt werden können und die Suche nach einem Datum im Dokument deaktiviert wird. Ich möchte den Scan immer mit dem aktuellen Datum versehen, unabhängig, welches Datum im Dokument gefunden wurde.

Danke und Grüße
webphax

winka · 13. Jan 2020

Guten Morgen webphax,

Letzteres kannst du doch über den Scanner steuern und die Funktion mit dem Datum durch löschen ausstellen..

GruenerHecht72 · 14. Jan 2020

Hallo winka,

leider nein. Mein Scanner (Brother ADS-2600We) unterstützt kein Datum im Dateinamen bei Netzwerk-Scans.

Grüße
webphax

winka · 14. Jan 2020

Gib im Browser die Geräteadresse des Scanners ein.
Dort sollte es möglich sein. Ich habe ebenfalls einen Brother. Kann mir nicht vorstellen, dass es bei deinem anders ist.

Per PN kannst du gerne fragen, falls du mehr Hilfe brauchst.

GruenerHecht72 · 14. Jan 2020

Hab eigentlich alle Optionen durchgeschaut. Es gibt zwar ein Custom-Feld für die Dateinamen, allerdings kann ich da keinen Platzhalter einfügen. In der Anleitung habe ich leider auch nichts dazu gefunden.

winka · 15. Jan 2020

Ich schreibe dir eine PN, damit es hier nicht zu Offtopic wird.

geimist · 15. Jan 2020

Falls ihr einen Lösungsweg gefunden habt, könnt ihr diesen ja gerne hier für alle anderen posten

legula84 · 16. Jan 2020

So gehts zumindest beim 1700w - nach dem Einloggen in die Admin-Oberfläche:

winka · 16. Jan 2020

Exakt. Wer es noch nicht kennt und auf die Seite möchte: initpass ist das Standard-Passwort, welches danach geändert werden sollte.

Yippie · 16. Jan 2020

geimist schrieb:
Könntest du mir mal bitte bei Gelegenheit schreiben, ob die Attribute deiner Dateien ACL- oder Linux Standardrechte sind (steht im Log)?
Danke

Hier eines der Logs:

-----------------------------------
| ==> Installationsinfo <== |
-----------------------------------

synOCR-User: root
synOCR-Version: 0.15.2
Architektur: x86_64
DSM-Build: 24922
Gerät: 918plus (3974443861)
aktuelles Profil: default
verwendetes Image: jbarlow83/ocrmypdf
verwendete Parameter: -srd -l deu
ersetze Suchpräfix: no
Umbenennungssyntax:
Loglevel: normal
Anwendungsverzeichnis: /usr/syno/synoman/webman/3rdparty/synOCR
Quellverzeichnis: /volume1/Scanner/Eingabe/
Quellverzeichnis: /volume1/Scanner/Ausgabe/
BackUp-Verzeichnis: /volume1/Scanner/_backup/

----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------

VERARBEITE: --> Flyer_waldweihnacht_2019_DE_web.pdf (Fri Jan 10 20:30:02 CET 2020)
temp. Zieldatei: /tmp/tmp.4K60kQqraQ/Flyer_waldweihnacht_2019_DE_web.pdf

--> OCRmyPDF-LOG:
INFO - reading file from standard input
INFO - Start processing 2 pages concurrent
INFO - Using Tesseract OpenMP thread limit 2
INFO - 2: skipping all processing on this page
INFO - 1: skipping all processing on this page
WARNING - Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF's XMP metadata.
INFO - Optimize ratio: 1.00 savings: -0.2%
INFO - Image optimization did not improve the file - discarded
INFO - Output sent to stdout
<-- OCRmyPDF-LOG-END

Zieldatei (OK): /volume1/Scanner/Ausgabe/Flyer_waldweihnacht_2019_DE_web.pdf
--> übertrage die Dateirechte und -besitzer (verwende ACL)
touch: invalid date format '17995002020.-01-10'
Datum nicht gefunden - verwende Dateidatum:
Tag:
Monat:
Jahr: 1799500
--> verschiebe Quelldatei nach: /volume1/Scanner/_backup/Flyer_waldweihnacht_2019_DE_web.pdf
INFO: (PushBullet-TOKEN nicht gesetzt)
INFO: (Laufzeit letzte Datei: 27 Sekunden (Seitenanzahl: 2) | gesamt: 19 PDFs / > 22 Seiten bisher verarbeitet)

-----------------------------------
| ==> synOCR ENDE <== |
-----------------------------------

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Kaffeautomat