synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.378
Punkte
234
Du kannst mal gucken, ob die einzelne Datei die Probleme macht (Dateiname steht in der Mail). Da das Dockerlog erst nach Abschluss des Dockerbefehls in das synOCR-Log geschrieben wird, könnte man höchstens mal (beim Festhängen des Dockercontainers) in dessen Log sehen (Docker > Container > synOCR > Buton 'Details' und hier Prozess und Protokoll)
 

Wolf_GP

Benutzer
Mitglied seit
09. Jan 2020
Beiträge
5
Punkte für Reaktionen
0
Punkte
0
Er hing an der einen Datei die bereits durchsuchbar war und mit _.pdf geendet hat.
Alles anderen sind durchgelaufen bis auf 3 die im Ordner als Errorfiles gelandet sind, aber keine Auffälligkeiten zeigen und durchsuchbar sind.
Hab die eine Datei spaßeshalber mal umbenannt (den Unterstrich entfernt) und nochmals neu gestartet (auch den Container).
Es scheint aber an der Datei selber zu hängen, jedenfalls tut sich wieder nichts und der Container läuft mit knapp 25% ohne etwas zu tun.
Werden bereits durchsuchbare Files normalerweise ignoriert oder versucht synOCR diese nochmals zu lesen und zu konvertieren?
Kann es daran liegen?

Gruß
Wolf
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.378
Punkte
234
Mit dem Parameter -f kann man das erneute ocren erzwingen. Andernfalls sollte lediglich eine Meldung im Log erscheinen, aber nicht der Container klemmen.
 

winka

Benutzer
Mitglied seit
25. Dez 2013
Beiträge
432
Punkte für Reaktionen
0
Punkte
16
Ah. Ok. Das erklärt, dass Suchergebnisse nur langsam aufkommen.
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Man kann jedoch Netzlaufwerke nicht durch Windows indizieren lassen und der DS Indizierungsdienst arbeitet nur mit MAC zusammen.

HA! Dacht' ich's mir doch :cool: und dass der Syno Index Dienst nur vom Mac Finder verwendet werden kann, wurmt mich immer noch. Hab hier keinerlei Macs und es wir auch nie einen geben :p
 

legula84

Benutzer
Mitglied seit
19. Okt 2012
Beiträge
8
Punkte für Reaktionen
0
Punkte
1
Moin,

danke für das tolle Tool. Das war für mich der fehlende Bausteine für die Einführung eines (nahezu) papierlosen Haushalts im Jahr 2020. Alle Dokumente, die bei uns zu Hause im Briefkasten liegen werden entweder per App (Scanbot) oder mobilem Scanner (Brother 1700w) in ein Verzeichnis auf meiner 218+ gespielt, anschließend mit dem Tool verschlagwortet und wieder in einem anderem Verzeichnis abgelegt. Darüber hinaus tagge ich einige spezielle Dateien (z.B. für die Steuererklärung) noch mit dem Tool tagspaces, damit ich die "mit einem Griff" habe. Für den Notfall ist dann immer noch die Suche über Inhalte per Volltextsuche möglich.

Als Backup geht alles nochmal regelmäßig (2 mal pro Woche) auf nen Cloud-Server von Synology in Frankfurt. Dürfte damit dann sicherer sein als ne Ablage im Ordner im Arbeitszimmer.

Super Arbeit!!

Gruß
Guido
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254

legula84

Benutzer
Mitglied seit
19. Okt 2012
Beiträge
8
Punkte für Reaktionen
0
Punkte
1
Moin,

ich gehe davon aus, dass die Comunity-Version reicht. Da ich das Tool aber gut finde und die Arbeit dahinter auch belohnen möchte, hab ich mir die PRO-Version gegönnt. Außerdem erhoffe ich mir, dass die auch irgendwann mal ne Volltextsuche für pdf-Dateien bekommt ;-)

Gruß
Guido
 

Hafer

Benutzer
Mitglied seit
03. Okt 2014
Beiträge
855
Punkte für Reaktionen
12
Punkte
38
HA! Dacht' ich's mir doch :cool: und dass der Syno Index Dienst nur vom Mac Finder verwendet werden kann, wurmt mich immer noch.

Ebenso. Habe das (vor Jahren?) Synology als Feature Request mitgeteilt, die sich brav bedankt haben und die Anfrage ansonsten auf den Stapel der unerfüllten requests gelegt haben. :(
Vielleicht hilt's, wenn weitere Kandidaten dieses feature fordern.
 

GruenerHecht72

Benutzer
Mitglied seit
15. Jul 2015
Beiträge
19
Punkte für Reaktionen
1
Punkte
3
Hallo geimist,

erst mal ein großes Lob an dich! synOCR ist super praktisch und ich konnte meine eigene "Bastellösung" damit ablösen. Zwei Features fände ich noch klasse:
  1. Nutzung eines Hot (watched) folders (https://github.com/jbarlow83/OCRmyPDF/blob/master/docs/batch.rst#hot-watched-folders)
  2. Option, dass beim Umbenennen der Datei die Variablen §y, §m, ... aufs aktuelle Datum gesetzt werden können und die Suche nach einem Datum im Dokument deaktiviert wird. Ich möchte den Scan immer mit dem aktuellen Datum versehen, unabhängig, welches Datum im Dokument gefunden wurde.
Danke und Grüße
webphax
 

winka

Benutzer
Mitglied seit
25. Dez 2013
Beiträge
432
Punkte für Reaktionen
0
Punkte
16
Guten Morgen webphax,

Letzteres kannst du doch über den Scanner steuern und die Funktion mit dem Datum durch löschen ausstellen..
 

GruenerHecht72

Benutzer
Mitglied seit
15. Jul 2015
Beiträge
19
Punkte für Reaktionen
1
Punkte
3
Hallo winka,

leider nein. Mein Scanner (Brother ADS-2600We) unterstützt kein Datum im Dateinamen bei Netzwerk-Scans.

Grüße
webphax
 

winka

Benutzer
Mitglied seit
25. Dez 2013
Beiträge
432
Punkte für Reaktionen
0
Punkte
16
Gib im Browser die Geräteadresse des Scanners ein.
Dort sollte es möglich sein. Ich habe ebenfalls einen Brother. Kann mir nicht vorstellen, dass es bei deinem anders ist.

Per PN kannst du gerne fragen, falls du mehr Hilfe brauchst. ;)
 

GruenerHecht72

Benutzer
Mitglied seit
15. Jul 2015
Beiträge
19
Punkte für Reaktionen
1
Punkte
3
Hab eigentlich alle Optionen durchgeschaut. Es gibt zwar ein Custom-Feld für die Dateinamen, allerdings kann ich da keinen Platzhalter einfügen. In der Anleitung habe ich leider auch nichts dazu gefunden.
 

winka

Benutzer
Mitglied seit
25. Dez 2013
Beiträge
432
Punkte für Reaktionen
0
Punkte
16
Ich schreibe dir eine PN, damit es hier nicht zu Offtopic wird.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.378
Punkte
234
Falls ihr einen Lösungsweg gefunden habt, könnt ihr diesen ja gerne hier für alle anderen posten :)
 

legula84

Benutzer
Mitglied seit
19. Okt 2012
Beiträge
8
Punkte für Reaktionen
0
Punkte
1
So gehts zumindest beim 1700w - nach dem Einloggen in die Admin-Oberfläche:

1700w.jpg
 

winka

Benutzer
Mitglied seit
25. Dez 2013
Beiträge
432
Punkte für Reaktionen
0
Punkte
16
Exakt. Wer es noch nicht kennt und auf die Seite möchte: initpass ist das Standard-Passwort, welches danach geändert werden sollte.
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Könntest du mir mal bitte bei Gelegenheit schreiben, ob die Attribute deiner Dateien ACL- oder Linux Standardrechte sind (steht im Log)?
Danke :)

Hier eines der Logs:

-----------------------------------
| ==> Installationsinfo <== |
-----------------------------------

synOCR-User: root
synOCR-Version: 0.15.2
Architektur: x86_64
DSM-Build: 24922
Gerät: 918plus (3974443861)
aktuelles Profil: default
verwendetes Image: jbarlow83/ocrmypdf
verwendete Parameter: -srd -l deu
ersetze Suchpräfix: no
Umbenennungssyntax:
Loglevel: normal
Anwendungsverzeichnis: /usr/syno/synoman/webman/3rdparty/synOCR
Quellverzeichnis: /volume1/Scanner/Eingabe/
Quellverzeichnis: /volume1/Scanner/Ausgabe/
BackUp-Verzeichnis: /volume1/Scanner/_backup/


----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------

VERARBEITE: --> Flyer_waldweihnacht_2019_DE_web.pdf (Fri Jan 10 20:30:02 CET 2020)
temp. Zieldatei: /tmp/tmp.4K60kQqraQ/Flyer_waldweihnacht_2019_DE_web.pdf

--> OCRmyPDF-LOG:
INFO - reading file from standard input
INFO - Start processing 2 pages concurrent
INFO - Using Tesseract OpenMP thread limit 2
INFO - 2: skipping all processing on this page
INFO - 1: skipping all processing on this page
WARNING - Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF's XMP metadata.
INFO - Optimize ratio: 1.00 savings: -0.2%
INFO - Image optimization did not improve the file - discarded
INFO - Output sent to stdout
<-- OCRmyPDF-LOG-END

Zieldatei (OK): /volume1/Scanner/Ausgabe/Flyer_waldweihnacht_2019_DE_web.pdf
--> übertrage die Dateirechte und -besitzer (verwende ACL)
touch: invalid date format '17995002020.-01-10'
Datum nicht gefunden - verwende Dateidatum:
Tag:
Monat:
Jahr: 1799500
--> verschiebe Quelldatei nach: /volume1/Scanner/_backup/Flyer_waldweihnacht_2019_DE_web.pdf
INFO: (PushBullet-TOKEN nicht gesetzt)
INFO: (Laufzeit letzte Datei: 27 Sekunden (Seitenanzahl: 2) | gesamt: 19 PDFs / > 22 Seiten bisher verarbeitet)


-----------------------------------
| ==> synOCR ENDE <== |
-----------------------------------
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat