synOCR synOCR - GUI für OCRmyPDF

winka

Benutzer
Mitglied seit
25. Dez 2013
Beiträge
432
Punkte für Reaktionen
0
Punkte
16
Schon gelesen. Der geimist glaube ich auch. Es gibt dort schon Kommentare Sure auf den geimist hindeuten.
Ich denke es gibt demnächst einige neue, begeisterte Nutzer
Hehe, genau. Mich zum Beispiel.

Dorthin hatte mich das Stichwort HomeBridge gebracht.

Jetzt bin ich OCR infiziert. Morgen darf ich vermutlich meinen bestellten ADS-1700W abholen... :D

Soweit ich weiß kann die Windows Suche keine Netzwerk Shares indexsieren und somit auch die sich dort befindlichen PDFs eigentlich gar nicht auffinden. Wie macht ihr das dann? Wie findet ihr solche PDFs wieder?
Gehe zu:
Systemeinstellung in der DS > Dateidienste > Indizierungsdienst >Liste indizierter Ordner > Erstellen. Trage dort den zu durchsuchenden Ordner ein. So sollte es dann mit dem Windows Explorer klappen.



Ich habe eine Frage an die Anwender. Ich habe mir überlegt, statt einem Pagnierstempel (der Nachts durch sein Geräusch Schlafende wecken könnte) mir DMS-Barcodes zu bestellen.
Hat das jemand in Verwendung und kann mir seine Erfahrung darüber berichten? Macht es Sinn?
 
Zuletzt bearbeitet:

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Gehe zu:
Systemeinstellung in der DS > Dateidienste > Indizierungsdienst >Liste indizierter Ordner > Erstellen. Trage dort den zu durchsuchenden Ordner ein. So sollte es dann mit dem Windows Explorer klappen.
Leider eben nicht, dort können keine Netzlaufwerke eingebunden werden, nur lokale..
 

winka

Benutzer
Mitglied seit
25. Dez 2013
Beiträge
432
Punkte für Reaktionen
0
Punkte
16
Du meinst unter Windows?

Also dort kann man sehr wohl Netzwerklaufwerke einbinden und nutzen.

Unbenannt.JPG
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Ja, das meinte ich, unter Windows. Habs erst neulich wieder getestet und wurde eines Besseren belehrt. Muss jetzt gleich nochmals nachsehen.

Danke dir.!
 

winka

Benutzer
Mitglied seit
25. Dez 2013
Beiträge
432
Punkte für Reaktionen
0
Punkte
16
Erwarte von der Suchgeschwindigkeit nicht zu viel.

Interessanter ist die Suche per Foxit Reader. Dort bekommt man alles zutreffende rechts in der Liste angezeigt und kann mit der Pfeiltaste durch die Dokumente springen, pro Tastendruck springt es in den Dokumenten schon zum Treffer, Ein umständliches Öffnen des Dokuments entfällt.
Das hatte jemand anderes hier im Thread mal gepostet. Weiß nicht mehr wie derjenige hieß, aber ich bin ihm dankbar.

Es lohnt sich durchaus den gesamten Thread zu lesen. Da gibt es viele Tipps und Ideen.
Anmerkung 2020-01-08 130042.jpg
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Ich nutze schon seit geraumer Zeit den Windows Explorer Ersatz: Directory Opus, gibt übrigens gerade Rabatt für den Kauf.

Dieses Tool kann sowohl die Windows Suche nutzen als auch über die selbst implementierte Suche, direkt PDF durchsuchen, die natürlich durchsuchbaren Text enhalten müssen, bspw. durch synOCR behandelte Dateien.

Damit Directory Opus dies aber kann muss ein eine sog. IFilter Shell Extension installiert worden sein, die meines Wissen sowohl Foxit als auch, wie in meinem Fall PDFXedit, automatisch installiert.

Ich habe das bereits so am Laufen, wollte nur die Windows Suche ebenfalls dahin bringen, mir ohne Umwege entsprechende Suchergebnisse zu liefern. Aber wie gesagt, ich schau jetzt mal, ob ich tatsächlich auch Netzlaufwerke in die Suche einbinden kann..
 
Zuletzt bearbeitet:

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Hi, ist es möglich eine Option in synOCR einzubauen, die das bisherige Dateidatum der PDFs nicht verändert, also weder das Erstelldatum noch das Geändertdatum?

Nach einer Texterkennung wird in beiden Daten das aktuelle Tagesdatum geschrieben. dies machte es bei Sortierung in einer Dateiliste, sortiert nach Erstelldatum, so gut wie unmöglich einzuschätzen, wann die PDF-Datei denn tatsächlich erstellt wurde.

Hintergrund für die Frage ist, dass ich in meinem Fall, bspw. Kassenbelege als PDF einscanne und diese dann für Garantiezwecke ablege. So sammeln sich im Laufe der Zeit mehrere Belege an, die ich bisher anhand des Erstelldatums sortieren konnte, damit die neuesten Belege immer nach oben wanderten, älter entsprechend weiter unten zu finden sind. Somit hatte ich schon Mal einen ersten Einblick, welche Dateien/Beleg demnächst wegen abgelaufener Garantiezeit obsolet werden.

Nach der Behandlung dieser Belege mit synOCR wird aber immer das Tagesdatum in allen möglichen Dateieigenschaften eingetragen und somit eine Sortierung (für mich) unmöglich gemacht.

Ach und noch eine Frage: da ich keine Massenscans betreibe sondern nur ab und an, muss ich mich derzeit jedes Mal im DSM anmelden und die Texterkennun manuell starten. Wenn ich nun wie in der Hilfe beschrieben einen Job bspw. alle 5 Minuten einplanen, erkennt das Shell-Skript, dass bereits ein anderer Job aktiv ist und bricht die Ausführung des neuen Jobs dann ab? Ansonsten würden sich ja ggf. die beiden Skripte überholen...

Gibt es möglicherweise sogar eine Art Verzeichnisüberwachung ala Windows, die man auf der Synology unter Linux analog nutzen könnte?

Oder gibt es eine andere Möglichkeit das Skript manuell von bspw. einem Windows PC aus zu starten ohne sich jetzt per SSH anmelden zu müssen?
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.378
Punkte
234
Hi, ist es möglich eine Option in synOCR einzubauen, die das bisherige Dateidatum der PDFs nicht verändert, also weder das Erstelldatum noch das Geändertdatum? …
Genau genommen, ist es umgedreht: synOCR muss das Dateidatum auf das ursprüngliche Erstelldatum ändern. Es wird nämlich immer eine neue Datei erstellt - das Orginal kommt (sofern aktiviert) in den Backupordner. Das Ganze ging auch schonmal, muss ich mir aber nochmal angucken. So wie du es dir wünscht, ist eigentlich auch der Plan …

… Wenn ich nun wie in der Hilfe beschrieben einen Job bspw. alle 5 Minuten einplanen, erkennt das Shell-Skript, dass bereits ein anderer Job aktiv ist und bricht die Ausführung des neuen Jobs dann ab? Ansonsten würden sich ja ggf. die beiden Skripte überholen...
Ist das eine Frage oder die Feststellung eines Bugs?
Der Programmlauf sollte nämlich nur ausgeführt werden, sofern synOCR noch nicht läuft.

Gibt es möglicherweise sogar eine Art Verzeichnisüberwachung ala Windows, die man auf der Synology unter Linux analog nutzen könnte?
Nein. Ich finde das auch gar nicht schlimm. Selbst wenn synOCR alle 5 min. kurz nachsieht, ob es etwas zu tun gibt, ist das für die DS kein Ressourcenaufwand.

Oder gibt es eine andere Möglichkeit das Skript manuell von bspw. einem Windows PC aus zu starten ohne sich jetzt per SSH anmelden zu müssen?
Ohne Zeitplaner und ohne SSH habe ich jetzt keine Idee …:rolleyes:
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Ist das eine Frage oder die Feststellung eines Bugs?
Der Programmlauf sollte nämlich nur ausgeführt werden, sofern synOCR noch nicht läuft.
Nein, kein Bug, sondern eine Frage, nach wie sich synOCR verhält wenn ich kleine Intervalle einstelle, bspw. 5 Minuten, und eine vorherige Texterkennung noch nicht beendet wurde.
Wird der zweite Start von synOCR dann Probleme bereiten, bspw. dem ersten irgendwelche Dateien unter dem Hintern wegziehen oder sogar löschen, die gerade der 1. Job in Bearbeitung hat?

Aber so wie ich deine Antwort jetzt lese, wird dies nicht der Fall sein und ich könnte sogar jede Minute einen Erkennungslauf einstellen ohne dass noch nicht beendete Vorgänger behindert werden.

Michael
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Prima, dann werd' ich das Mal einem Härtetest unterziehen und alle 5 Minuten einplanen. :D

Zum anderen Thema, mit dem Dateidatum bei bearbeiteten oder neuen PDF-Dateien: bin schon gespannt was du rausfindest. Habe derweilen die paar PDFs, die allesamt das Datum von gestern erhalten haben, auf das korrekte Datum zurückgeändert. Nicht ideal, war aber überschaubar.

Ach ja, im Log von synOCR steht auch irgendetwas zum Touch-Befehl der auf diese Dateien angewendet worden ist. Hab das Log gerade aber nicht zur Hand um daraus etwas ableiten zu können.

VG
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.378
Punkte
234
… Ach ja, im Log von synOCR steht auch irgendetwas zum Touch-Befehl der auf diese Dateien angewendet worden ist. Hab das Log gerade aber nicht zur Hand um daraus etwas ableiten zu können.

synOCR versucht die Dateiattribute der Quelldatei zu kopieren. Je nach Rechtesystem (ACL / Linux Standardrechte) versuche ich 2 Wege zu gehen. Bei ACL Rechten soll das Dateidatum per touch geändert werden, bei Linux Standardrechten via cp --attributes-only -p ….

Wie gesagt, ich sehe mir das nochmal an.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.378
Punkte
234
… Hab das Log gerade aber nicht zur Hand um daraus etwas ableiten zu können.
Könntest du mir mal bitte bei Gelegenheit schreiben, ob die Attribute deiner Dateien ACL- oder Linux Standardrechte sind (steht im Log)?
Danke :)
 
Zuletzt bearbeitet:

Wolf_GP

Benutzer
Mitglied seit
09. Jan 2020
Beiträge
5
Punkte für Reaktionen
0
Punkte
0
Hallo Stephan,

seit ca. 30 Min. piepst es bei mir... in regelmäßigen Abständen... und ich bin begeistert!

Bin über die Google-Suche hier im Forum gelandet weil ich eine vernünftige, automatisierbare Lösung für das Durchsuchbar machen von gescannten PDFs haben will.
5 Seiten später in diesem Thread war ich überzeugt, dass es passen könnte - hab das Paket installiert, die erforderlichen Ordner angelegt und in der Konfiguration eingetragen.

Und was soll ich sagen? Es funktioniert! Klasse! Und wenn ich sehe, was du hier für Zeit und Arbeit reinsteckst, stets geduldig auf diverse Fragen antwortest und einen Punkt nach dem anderen auf deine Todo-Liste schreibst um ihn dann auch wieder abzuhaken und die Nutzer mit neuen Features zu erfreuen, dann muss ich sagen: Respekt und Herzlichen Dank!
Falls du einen Paypal-Account hast lass es mich bitte wissen, das wäre mir auch einen kleinen Obulus wert.

Viele Grüße aus Göppingen
Wolf
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.378
Punkte
234
… Und wenn ich sehe, … und einen Punkt nach dem anderen auf deine Todo-Liste schreibst um ihn dann auch wieder abzuhaken und die Nutzer mit neuen Features zu erfreuen, dann muss ich sagen: Respekt und Herzlichen Dank! …

Gerne :eek:

Aber vom 'auf die ToDo-Liste schreiben' wird noch keiner glücklich. Manche Dinge sind für mich als 'Nichtprogrammierer' nur schwer umzusetzen …
Ich verspreche, dass ich mir weiter Mühe geben werde :)
 

Wolf_GP

Benutzer
Mitglied seit
09. Jan 2020
Beiträge
5
Punkte für Reaktionen
0
Punkte
0
Na, ich denke du hast ja auch schon einiges umgesetzt! :) Hab jetzt auch unter Hilfe den Donate-Button gefunden und gleich "ausprobiert"!

Die ersten 141 Dateien sind schon bearbeitet.. jetzt scheint er zu hängen - Beenden lässt sich aber auch durch den Versuch neu zu starten nicht erzwingen...?

Gruß
Wolf
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.378
Punkte
234
… jetzt scheint er zu hängen - Beenden lässt sich aber auch durch den Versuch neu zu starten nicht erzwingen...?
Interessant …
Wie ist die Systemauslastung (CPU / RAM)?
Zur Not kannst du den Dockercontainer synOCR stoppen.

Das Log wäre interessant (meine Mailadresse hast du ja)
 

Wolf_GP

Benutzer
Mitglied seit
09. Jan 2020
Beiträge
5
Punkte für Reaktionen
0
Punkte
0
CPU läuft mit 26%... Das Paket synOCR hatte ich schon gestoppt, wieder neu gestartet, aber der Prozess scheint trotzdem noch zu laufen, ohne das er etwas tut.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.378
Punkte
234
Ich meine nicht 'mein' Paket synOCR, sondern wirklich den Container in Docker. Bitte mal den stoppen.
 

Wolf_GP

Benutzer
Mitglied seit
09. Jan 2020
Beiträge
5
Punkte für Reaktionen
0
Punkte
0
Danke für den Tipp. Hab ich jetzt auch noch gemacht.
Er hat dann sofort wieder selbstständig gestartet und scheint nun auch wieder erfolgreich weiterzuarbeiten! :)
Wäre nur interessant zu wissen, was ihn da ausgebremst hat.

Gruß
Wolf
 
Zuletzt bearbeitet:


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat