synOCR synOCR - GUI für OCRmyPDF

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
Mir fällt seitens der Programmierung folgender Workaround ein.

Vielleicht ist es hilfreich die Tags in zwei Felder zu unterteilen, wo man die Wörter einfach einträgt.

Feld 1 => Prüfung auf die jeweiligen Wörter (so wie jetzt)
Feld 2 => Prüfung auf die jeweiligen Wörter, zusätzlich ob beim gefundenen Wort ein Buchstabe davor oder dahinter steht (Ignorierung von Satzzeichen).
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
synOCR v0.13.0

synOCR v0.13.0

IMPLEMENTIERUNGEN:
- durch Voranstellen eines Paragrafenzeichen kann ein Tag alleinstehend gefunden werden (§tag)
- in der Statistik werden jetzt auch einzelne Seiten gezählt
- (der Suchpräfix ist als Standard [bei Neueinstallationen] nicht mehr vorbelegt)
BUGFIXES:
- Fehler bei der LOG-Ausgabe beim Aufruf über den Aufgabenplaner
 

mördock

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
806
Punkte für Reaktionen
17
Punkte
44
Hallo,
Nachdem ich nun meine" alten " PDF Dateien verarbeitet habe wollte ich mir einen Workaround für neue pdf Dateien einrichten. Es scheitert allerdings am Zeitplan, egal ob über synocr eingerichtet oder manuell im Aufgabenplaner, er wird nicht ausgeführt.
Stoße ich die Verarbeitung manuell an klappt alles. Die Konfiguration ist also richtig. Startet der Zeitplan entsteht nur eine leere Log Datei. Warum produziere ich eigentlich immer leere Log Dateien?:confused: das hatte ich doch erst kürzlich mit synOCR.

#mördock#
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
Der manuelle Start macht auch nichts anderes als /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh aufzurufen. Daher kann ich mir das Verhalten nicht wirklich erklären. Ist die Aufgabe im Aufgabenplaner dem User root zugeordnet?
 

mördock

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
806
Punkte für Reaktionen
17
Punkte
44
Komisch. Ja, habe root zugeordnet. Der Sicherheits Berater hat auch vorschriftsmäßig gemeckert und es tauchen log Dateien auf. Werde es beobachten und den Zeitplan noch mal neu definieren, was ich natürlich schon mehrfach gemacht habe.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
Was sagt die Ausgabe unter "Ergebnis anzeigen" im Aufgabenplaner? (nach einem Start, wo eigentlich PDFs abgearbeitet worden sein müssen)
 

mördock

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
806
Punkte für Reaktionen
17
Punkte
44
Auch wenn Du jetzt denken könntest ich will dich veräppeln, aber jetzt geht es.
Über den Zeitplan in SynOCR geht es weiterhin nicht. Über den Aufgabenplaner ging es bis eben auch nicht. Aufgabe neu angelegt, gewartet und jetzt gehts.
Zu meiner Verteidigung ein Foto der letzten LOG Dateien, alle mit 0 KB entstanden über den Zeitplaner im SynOCR, erst das LOG File von 19.56 Uhr beinhaltet Daten, es entstand über eine Aufgabe im Aufgabenplaner. Das erste Log File war ein manueller Durchlauf.
Aufgabe im Planer gerade manuell angestoßen, geht auch.
Danke für Deine Arbeit und Geduld. SynOCR eine geniale Sache.
01.JPG

#Mördock#
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
"SAG MAL: WILLST DU MICH VERÄPPLEN …?:rolleyes::confused:"

Ich weiß es doch auch nicht.
Die leeren Logs wundern mich.
Hast du noch die Aufgabe im Aufgabenplaner, die nicht funktioniert? Da würde ich gerne mal die Ausgabe eines nicht erfolgreichen Durchlaufs (leeres Log) erfahren. Sonst können wir nur hoffen, dass es bei keinem anderen auch auftritt.

Aber schön, dass es funktioniert :)
 

mördock

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
806
Punkte für Reaktionen
17
Punkte
44
Nein, im löschen bin ich schnell. Die nicht funktionierende Aufgabe war gelöscht bevor du danach gefragt hast.

#mördock#
 

arphex

Benutzer
Mitglied seit
17. Nov 2011
Beiträge
171
Punkte für Reaktionen
0
Punkte
22
Hi geimist,
erstmal vielen Dank für deine Mühen! :) Funkioniert auf Anhieb. Ich hatte docker schon installiert gehabt und dein Paket auch gleich getestet. Einfach einen incoming und einen outgoing Ordner angegeben und zum Test ein paar PDFs eingelegt.

Habe zur allgemeinen Verwendung noch Fragen.
Wie durchsuche ich denn die PDFs / Dokumente ? Hier schreibst du, dass die Dokumente durchsucht werden können.
Habe ja in deiner GUI die 4 Reiter und keine Suchmaske.

Empfiehlst du auch eine Dokumentenverwaltungssoftware zu deiner OCR Lösung?
Ich überlege mir einen ix500 zu kaufen um die ganze Kette eines Papierlosen Büros mit deinem Paket abbilden zu können.
Herzlichen Dank!
Grüße
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
Das Durchsuchen bezieht sich nicht auf synOCR, sondern auf deine Desktop- / NAS-Umbegebung. Durch synOCR werden nichtdurchsuchbare PDFs zu durchsuchbaren PDFs. Die Dokumente können halt nun über die Volltextsuche des BS indiziert werden (Universal Search, Spotlight, ect.…).

DMS brauche ich nicht und kann dir da auch nichts empfehlen. Spotlight auf Mac findet für mich alles. Alle allgemeinen Dokumente werden lediglich nach Jahr einsortiert.
 

arphex

Benutzer
Mitglied seit
17. Nov 2011
Beiträge
171
Punkte für Reaktionen
0
Punkte
22
Ok das macht natürlich Sinn. Leider habe ich Windows und nur meine Frau einen Mac. Daher suchte ich nach einer verteilten Lösung für die Dokumentenverwaltung.

Hatte schon gehofft Note Station könnte hier weiterhelfen, aber Dokumente liessen sich bei mir nicht einlesen.
Zu deinem Tool, die Informationen werden dann als Metainformationen im PDF gespeichert oder?
 

TeXniXo

Benutzer
Mitglied seit
07. Mai 2012
Beiträge
4.948
Punkte für Reaktionen
100
Punkte
134
Sowohl die Suchfunktion in Windows (Explorer) als auch Mac (Finder) kann entsprechende PDFs raussuchen. Da braucht man keine zuästzliche 3rd App - so meine Meinung.

Note Station lässt sich auch via Universal Search (erst wenn du es entsprechend konfiguiert hast) durchsuchen. Oder via nativer App auf Windows / Mac (Download auf synology.com)
 

TeXniXo

Benutzer
Mitglied seit
07. Mai 2012
Beiträge
4.948
Punkte für Reaktionen
100
Punkte
134
@gemist: Wie ist eig. der Workaround dazu, wenn man - so wie ich grad das Upddate installiert habe - dauernd rausgeworfen wird aus der DSM-Oberfläche nach dem Aufrufen der synOCR-Seite (kurz davor kann man erhaschen, dass auf der synOCR-Oberfläche "Die Seite kann nicht gefunden werden" steht, bevor ich ausgeloggt werde)? Die letzten Updates hatten diese Symptome nicht? Hab mal was hiervon gelesen hier bzw. bei der Installation, weiß aber nimmer genau, was da drinnen stand ;)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
Das Verhalten ist mir neu :confused:
Es gibt ein bekanntes Problem (das betrifft aber viele SPKs), dass das SPK nach einem Update nicht gestartet werden kann - man sieht nur das Icon mit Wartekreis. QTip sieht den dahinterliegenden Fehler im DSM. Hierbei ist es notwendig, die DSM-Seite nach einem Update einmal neuzuladen um das SPK verwenden zu können.

Mal den Cache gelöscht?
Seit wann gibt es das Verhalten - SPK Update oder DSM Update?
Inkognitofenster / anderer Browser probiert?
 

Hafer

Benutzer
Mitglied seit
03. Okt 2014
Beiträge
855
Punkte für Reaktionen
12
Punkte
38
[...] die Suchfunktion in Windows (Explorer) [...] kann entsprechende PDFs raussuchen. Da braucht man keine zuästzliche 3rd App - so meine Meinung.

It depends. Befinden sich die durchsuchbaren PDF auf einem lokalen Verzeichnis, so kann man diese im Windows-Indizierungsdienst mit aufnehmen und kann dann mit dem Windows Explorer suchen; das klappt erstaunlich gut.

Befinden sich die durchsuchbaren PDF jedoch auf einem Netzlaufwerk der DS, so kann man zwar mit universal search suchen, aber eben nur von der Weboberfläche des DSM aus. Von Windows aus funktioniert allerdings nur die Suche über die Dateinamen, keine Suche über einen Vollindex, weil der Windows-Indizierungsdienst Netzlaufwerke ignoriert. SHIT!
Als Begründung wurde mir angeboten, Redmond habe das so gestaltet, damit die vielen MS-Clients die MS-Server nicht mit Indizierungsaufgaben überlasten. Deshalb würde der MS-Server selbst indizieren und über eine API der Client-Suchfunktion das Stöbern im Netzlaufwerk-Index ermöglichen. Klang für mich plausibel genug, um Synology mit einem Ticket aufzufordern, das nachzuimplementieren. Die haben sich brav für diese Idee bedankt und nichts mehr von sich hören lassen.
Vielleicht haben zu wenige user diese Funktion verlangt.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
Es hilft dir sicherlich nicht weiter, aber in der Form hat es Synology für die Spotlightsuche (im Finder) auf dem Mac implementiert. Vielleicht macht es dir ja Hoffnung :)

Wenn du damit scannst, dann sind deine PDF bereits durchsuchbar; die Software dafür wird mitgeliefert. Ich benutze das Ding seit Jahren, es ist einfach super.

Soll heißen, du musst auf dem Client die mitgelieferte Software installieren?

Zu meinem Workflow:
Ich nutze seit Jahren einen Bother ADS-2600W. Der Scanner arbeitet unabhängig von einem Client und legt die Scans direkt (per FTP / WLAN) in den Inputordner von synOCR auf dem NAS. So wie Post kommt, wird sie sofort eingescannt und fertig.
 

reiki

Benutzer
Mitglied seit
16. Mai 2012
Beiträge
355
Punkte für Reaktionen
7
Punkte
18
.....
Ich nutze seit Jahren einen Bother ADS-2600W. Der Scanner arbeitet unabhängig von einem Client und legt die Scans direkt (per FTP / WLAN) in den Inputordner von synOCR auf dem NAS......

Da ich die "kleinere" Variante Brother ADS1600-W nutze, sollte ich man den Workaround demnächst bei mir implementieren, da mitlerweile dein SynOCR bei mir läuft.
 

lord_zunami

Benutzer
Mitglied seit
15. Feb 2019
Beiträge
29
Punkte für Reaktionen
0
Punkte
1
Hallo Mike,

eigentlich solltest du lediglich das Paket "Docker" installiert haben, synOCR startet dann den Container jbarlow83/ocrmypdf. Ggf. wird das entsprechende Abbild vorher geladen. Der Container wird nicht dauerhaft laufen (dafür ist er nicht gebaut).

Hallo!

Ich hab mich hier ein bißchen eingelesen und stoße auf ein paar probleme die mir ein rätsel sind.

1. Ist es egal von welchem docker ocrmypdf anbieter ich die datei installiere?
ich habe es von jbarlow83/ocrmypdf

2. Ist es egal wie ich das docker dann benenne? ich habe halt den vorgeschlagenen standard genommen jbarlow83-ocrmypdf1

3. wenn ich das richtig verstehe muss dieses Docker nicht die ganze Zeit laufen sondern synOCR startet den docker. Ist das richtig?
2019-02-22 10_44_58-ocrmypdf.png


MEINE Probleme:
4. ich habe eine datei bei in input gegeben aber bei output ist nichts rausgekommen. auch keine log datei. Fehlermeldung ist auch nicht gekommen.
Was könnte hier der Fehler sein?
2019-02-22 10_49_10-synocrpath.png

5. Verwirrend ist auch das laut status alles ok zu schein scheind.
2019-02-22 10_51_28-synocrstatus.jpg

Please Help :)

Wunsch für die Zukunft wäre ein Dienst der im Hintergrund läuft der permanten scan ob eine Datei im Imput ist un diese sofort ocr prüft. ;)
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat