synOCR synOCR - GUI für OCRmyPDF

AudiQ7 · 26. Sep. 2022

Hallo zusammen,
ich bin gerade dabei synocr einzurichten und scheite an vermutlich den einfachsten Sachen. Ich habe hier schon viel gelesen aber leider bin ich nicht zum gewünschten erfolg gekommen.

Ich habe mehrere Dokumente wo immer der Ausdruck "Kontoauszug *Jahr*" steht soll. Ich dachte ich löse es einfach mit

- searchstring: "Kontoauszug [[:digit:]]{4}"

Jedoch funktioniert es nicht. Den in OCR aufgelöst sieht es folgendermaßen aus:
Dokument 1:

Code:

Kontoauszug
2020

Dokument2:

Code:

Kontoauszug                       2018

Also einmal mit Zeilenumbruch und einmal mit 23 Leerzeichen. Habt ihr eine Idee wie man das lösen kann? Ich habe die Variante vom Post #2.031 schon versucht jedoch wäre das viel zu mühsam. Da ich nie weiß wie viele Leerzeichen vorhanden sind.

Ich habe mich dann etwas bei Regex eingelesen und mir das so zusammengebaut:

- searchstring: 'Kontoauszug\s*\K\d+'

Auf dieser weite konnte ich 2018 filtern aber nicht den Zeilenumbruch. Hier steck ich jetzt fest.

Gthorsten · 27. Sep. 2022

Wie wäre es mit Kontoauszug\s[[:digit:]] {4}

?

AudiQ7 · 27. Sep. 2022

Danke, habe es probiert. Leider funktioniert das auch nicht.

Gthorsten · 27. Sep. 2022

Hatte das auf einer regex test seite ausprobiert. Da ging es... Hmm komisch

Monacum · 27. Sep. 2022

Kontoauszug\s*?[[:digit:]] {4}

So?

AudiQ7 · 27. Sep. 2022

Vielleicht habe ich auch ein denk Fehler. Im erweiterten log schaut es so aus:

Monacum · 27. Sep. 2022

Kontoauszug\n2020, wenn hinter dem Kontoauszug kein Leerzeichen mehr kommt

AudiQ7 · 27. Sep. 2022

Mhhh, leider hat das auch nicht geklappt. Hab jetzt selber noch mehrmals probiert aber leider ohne erfolg.
Sonnst noch jemand eine Idee? Kann man irgendwie die OCR Erkennung schärfer stellen? Im Dokument steht ja auch hintereinander "Kontoauszug 2020" jedoch wird das mit einem Zeilenumbruch erkannt.

geimist · 27. Sep. 2022

AudiQ7 schrieb:
Im Dokument steht ja auch hintereinander "Kontoauszug 2020" jedoch wird das mit einem Zeilenumbruch erkannt.

Kannst du die Scanqualität verbessern?

AudiQ7 · 28. Sep. 2022

Das Probier ich mal. Ich hatte eigentlich mit einem Konica Minolta auf 600dpi gescannt. Ich werd mir einen reinen Dokumenten Scanner besorgen. Danke vorerst.

geimist · 28. Sep. 2022

Meiner Beobachtung nach muss eine höhere Auflösung nicht unbedingt besser sein. Probiere einfach mal mit 300DPI und schwarzweiß.

AudiQ7 · 28. Sep. 2022

Wow du hattest recht. Ich dachte umso besser die Auflösung um so besser das Ergebnis. Aber hab jetzt mit 200 und 300dpi ein viel besseres Ergebnis als mit 600dpi.

Nun funktionieren auch die Abfragen!

Danke für das Tolle tool und dem Super Support hier in der Community.

AudiQ7 · 28. Sep. 2022

Ich hab nochmals kurz eine andere Frage. Ihr sucht nach Dokumenten ja auch in der Synology Drive oder?
Damit die Datei durchsuchbar ist muss ich immer den hacken bei der "Erweiterten Suche" Aktivieren.
Gibt es dazu eine Lösung dass dies immer aktiv ist?

Bildschirmfoto 2022-09-28 um 22.18.50.png

geimist · 28. Sep. 2022

In der mobilen Drive-App wird standardmäßig auch im Dateiinhalt gesucht. Meistens suche ich aber über SMB im Finder (Explorer von macOS). Da wird auch auf den Index von Universal Search zurückgegriffen.

Einige Output-Ordner werden auch via Drive lokal abgeglichen. Entsprechend sind sie dann natürlich auch lokal indiziert.

stdr · 29. Sep. 2022

Danke für die tolle Arbeit. Ich benutze synOCR seit ein paar Monaten, um einen Scan-Ordner zu überwachen und neu eingescannte Dokumente gleich durchsuchbar zu machen. Funktioniert prima.

Jetzt habe ich aber ein zweites Profil erstellt, um Dokumente aus einem Archiv-Ordner ebenfalls zu verarbeiten. Dort sind 300.000 PDF-Dateien drin. Ich kann damit leben, dass das 2 Monate dauern wird.

Allerdings blockieren diese Dokumente die Überwachung des Scan-Ordners.

Ich wollte nun in das Archiv-Profil wieder deaktivieren, damit das Scanner-Profil wieder zum Zuge kommt. Die Verarbeitung der Dateien im Archiv-Ordner hört aber nicht auf. Ich habe synOCR schon im Aufgabenplaner deaktiviert und neu gestartet. SynOCR wird aber immer wieder neu aufgerufen mit Dateien aus dem Archiv-Ordner. Ich habe auch schon SynOCR in Docker gestoppt. Die Aufrufe gehen aber immer weiter.

Wie kann ich die Ausführung stoppen?
Gibt es eine Möglichkeit, Profile zu priorisieren?

geimist · 29. Sep. 2022

Es gibt mehrere Möglichkeiten:

Das geht mit dem Button über die Startseite in der GUI, sofern der aktuelle Ablauf nicht über den Aufgabenplaner mit dem Benutzer root gestartet wurde. In DSM 6 funktioniert das unabhängig davon.
Alternativ im Aufgabenplaner oder der Shell (als user root) diese zwei Befehle absetzen:
Bash:
```
/bin/killall synOCR.sh
/usr/local/bin/docker stop -t 0 synOCR
```
DS Neustarten
Quellordner temporär umbenennen

Warum hat es mit deinen Versuchen nicht geklappt?:

Der Prozess läuft bereits im Hintergrund.
- Das (de-)aktivieren des Profils bezieht sich auf die Überwachung des Quellordners.
- Das Stoppen des Pakets betrifft hauptsächlich die GUI - ab v1.2.0.12 auch das Monitoring
Der Dockercontainer synOCR wird für jedes PDF erneut temporär erstellt. Beendet man ihn, unterbricht man lediglich die Bearbeitung eines PDF-Dokuments.

Monacum · 29. Sep. 2022

stdr schrieb:
Ich habe auch schon SynOCR in Docker gestoppt.

Das hast du definitiv nicht gemacht, weil die Applikation nicht in Docker läuft.

Du hast eher versucht, OCRmyPDF zu stoppen, also den Container, der die Verarbeitung im Hintergrund durchführt und den synOCR steuert, das kann aber nicht funktionieren, weil die Applikation dieses Paket immer wieder neue in Docker aufruft, eben um neue Dokumente zu verarbeiten.

stdr · 29. Sep. 2022

Monacum schrieb:
Das hast du definitiv nicht gemacht, weil die Applikation nicht in Docker läuft.

Da hast du Recht. Allerdings heißt OCRmyPDF in Docker "synOCR".

geimist · 29. Sep. 2022

Konntest du es stoppen?

stdr · 29. Sep. 2022

geimist schrieb:
Konntest du es stoppen?

Danke. Das Script hat geholfen. Ich konnte es damit stoppen und anschließend mit dem Scanner-Profil wieder neu starten.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat