synOCR synOCR - GUI für OCRmyPDF

Du kannst mal gucken, ob die einzelne Datei die Probleme macht (Dateiname steht in der Mail). Da das Dockerlog erst nach Abschluss des Dockerbefehls in das synOCR-Log geschrieben wird, könnte man höchstens mal (beim Festhängen des Dockercontainers) in dessen Log sehen (Docker > Container > synOCR > Buton 'Details' und hier Prozess und Protokoll)
 
Er hing an der einen Datei die bereits durchsuchbar war und mit _.pdf geendet hat.
Alles anderen sind durchgelaufen bis auf 3 die im Ordner als Errorfiles gelandet sind, aber keine Auffälligkeiten zeigen und durchsuchbar sind.
Hab die eine Datei spaßeshalber mal umbenannt (den Unterstrich entfernt) und nochmals neu gestartet (auch den Container).
Es scheint aber an der Datei selber zu hängen, jedenfalls tut sich wieder nichts und der Container läuft mit knapp 25% ohne etwas zu tun.
Werden bereits durchsuchbare Files normalerweise ignoriert oder versucht synOCR diese nochmals zu lesen und zu konvertieren?
Kann es daran liegen?

Gruß
Wolf
 
Mit dem Parameter -f kann man das erneute ocren erzwingen. Andernfalls sollte lediglich eine Meldung im Log erscheinen, aber nicht der Container klemmen.
 
Ah. Ok. Das erklärt, dass Suchergebnisse nur langsam aufkommen.
 
Man kann jedoch Netzlaufwerke nicht durch Windows indizieren lassen und der DS Indizierungsdienst arbeitet nur mit MAC zusammen.

HA! Dacht' ich's mir doch :cool: und dass der Syno Index Dienst nur vom Mac Finder verwendet werden kann, wurmt mich immer noch. Hab hier keinerlei Macs und es wir auch nie einen geben :p
 
Moin,

danke für das tolle Tool. Das war für mich der fehlende Bausteine für die Einführung eines (nahezu) papierlosen Haushalts im Jahr 2020. Alle Dokumente, die bei uns zu Hause im Briefkasten liegen werden entweder per App (Scanbot) oder mobilem Scanner (Brother 1700w) in ein Verzeichnis auf meiner 218+ gespielt, anschließend mit dem Tool verschlagwortet und wieder in einem anderem Verzeichnis abgelegt. Darüber hinaus tagge ich einige spezielle Dateien (z.B. für die Steuererklärung) noch mit dem Tool tagspaces, damit ich die "mit einem Griff" habe. Für den Notfall ist dann immer noch die Suche über Inhalte per Volltextsuche möglich.

Als Backup geht alles nochmal regelmäßig (2 mal pro Woche) auf nen Cloud-Server von Synology in Frankfurt. Dürfte damit dann sicherer sein als ne Ablage im Ordner im Arbeitszimmer.

Super Arbeit!!

Gruß
Guido
 
Moin,

ich gehe davon aus, dass die Comunity-Version reicht. Da ich das Tool aber gut finde und die Arbeit dahinter auch belohnen möchte, hab ich mir die PRO-Version gegönnt. Außerdem erhoffe ich mir, dass die auch irgendwann mal ne Volltextsuche für pdf-Dateien bekommt ;-)

Gruß
Guido
 
HA! Dacht' ich's mir doch :cool: und dass der Syno Index Dienst nur vom Mac Finder verwendet werden kann, wurmt mich immer noch.

Ebenso. Habe das (vor Jahren?) Synology als Feature Request mitgeteilt, die sich brav bedankt haben und die Anfrage ansonsten auf den Stapel der unerfüllten requests gelegt haben. :(
Vielleicht hilt's, wenn weitere Kandidaten dieses feature fordern.
 
Hallo geimist,

erst mal ein großes Lob an dich! synOCR ist super praktisch und ich konnte meine eigene "Bastellösung" damit ablösen. Zwei Features fände ich noch klasse:
  1. Nutzung eines Hot (watched) folders (https://github.com/jbarlow83/OCRmyPDF/blob/master/docs/batch.rst#hot-watched-folders)
  2. Option, dass beim Umbenennen der Datei die Variablen §y, §m, ... aufs aktuelle Datum gesetzt werden können und die Suche nach einem Datum im Dokument deaktiviert wird. Ich möchte den Scan immer mit dem aktuellen Datum versehen, unabhängig, welches Datum im Dokument gefunden wurde.
Danke und Grüße
webphax
 
Guten Morgen webphax,

Letzteres kannst du doch über den Scanner steuern und die Funktion mit dem Datum durch löschen ausstellen..
 
Hallo winka,

leider nein. Mein Scanner (Brother ADS-2600We) unterstützt kein Datum im Dateinamen bei Netzwerk-Scans.

Grüße
webphax
 
Gib im Browser die Geräteadresse des Scanners ein.
Dort sollte es möglich sein. Ich habe ebenfalls einen Brother. Kann mir nicht vorstellen, dass es bei deinem anders ist.

Per PN kannst du gerne fragen, falls du mehr Hilfe brauchst. ;)
 
Hab eigentlich alle Optionen durchgeschaut. Es gibt zwar ein Custom-Feld für die Dateinamen, allerdings kann ich da keinen Platzhalter einfügen. In der Anleitung habe ich leider auch nichts dazu gefunden.
 
Ich schreibe dir eine PN, damit es hier nicht zu Offtopic wird.
 
Falls ihr einen Lösungsweg gefunden habt, könnt ihr diesen ja gerne hier für alle anderen posten :)
 
So gehts zumindest beim 1700w - nach dem Einloggen in die Admin-Oberfläche:

1700w.jpg
 
Exakt. Wer es noch nicht kennt und auf die Seite möchte: initpass ist das Standard-Passwort, welches danach geändert werden sollte.
 
Könntest du mir mal bitte bei Gelegenheit schreiben, ob die Attribute deiner Dateien ACL- oder Linux Standardrechte sind (steht im Log)?
Danke :)

Hier eines der Logs:

-----------------------------------
| ==> Installationsinfo <== |
-----------------------------------

synOCR-User: root
synOCR-Version: 0.15.2
Architektur: x86_64
DSM-Build: 24922
Gerät: 918plus (3974443861)
aktuelles Profil: default
verwendetes Image: jbarlow83/ocrmypdf
verwendete Parameter: -srd -l deu
ersetze Suchpräfix: no
Umbenennungssyntax:
Loglevel: normal
Anwendungsverzeichnis: /usr/syno/synoman/webman/3rdparty/synOCR
Quellverzeichnis: /volume1/Scanner/Eingabe/
Quellverzeichnis: /volume1/Scanner/Ausgabe/
BackUp-Verzeichnis: /volume1/Scanner/_backup/


----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------

VERARBEITE: --> Flyer_waldweihnacht_2019_DE_web.pdf (Fri Jan 10 20:30:02 CET 2020)
temp. Zieldatei: /tmp/tmp.4K60kQqraQ/Flyer_waldweihnacht_2019_DE_web.pdf

--> OCRmyPDF-LOG:
INFO - reading file from standard input
INFO - Start processing 2 pages concurrent
INFO - Using Tesseract OpenMP thread limit 2
INFO - 2: skipping all processing on this page
INFO - 1: skipping all processing on this page
WARNING - Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF's XMP metadata.
INFO - Optimize ratio: 1.00 savings: -0.2%
INFO - Image optimization did not improve the file - discarded
INFO - Output sent to stdout
<-- OCRmyPDF-LOG-END

Zieldatei (OK): /volume1/Scanner/Ausgabe/Flyer_waldweihnacht_2019_DE_web.pdf
--> übertrage die Dateirechte und -besitzer (verwende ACL)
touch: invalid date format '17995002020.-01-10'
Datum nicht gefunden - verwende Dateidatum:
Tag:
Monat:
Jahr: 1799500
--> verschiebe Quelldatei nach: /volume1/Scanner/_backup/Flyer_waldweihnacht_2019_DE_web.pdf
INFO: (PushBullet-TOKEN nicht gesetzt)
INFO: (Laufzeit letzte Datei: 27 Sekunden (Seitenanzahl: 2) | gesamt: 19 PDFs / > 22 Seiten bisher verarbeitet)


-----------------------------------
| ==> synOCR ENDE <== |
-----------------------------------
 
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat