synOCR synOCR - GUI für OCRmyPDF

  • Aktuell gibt es ein Problem mit dem Mail-Versand. Der Mailversand ist deswegen gestoppt. Wir arbeiten dran.
Hallo zusammen,
ich bin gerade dabei synocr einzurichten und scheite an vermutlich den einfachsten Sachen. Ich habe hier schon viel gelesen aber leider bin ich nicht zum gewünschten erfolg gekommen.

Ich habe mehrere Dokumente wo immer der Ausdruck "Kontoauszug *Jahr*" steht soll. Ich dachte ich löse es einfach mit
- searchstring: "Kontoauszug [[:digit:]]{4}"

Jedoch funktioniert es nicht. Den in OCR aufgelöst sieht es folgendermaßen aus:
Dokument 1:
Code:
Kontoauszug
2020
Dokument2:
Code:
Kontoauszug                       2018

Also einmal mit Zeilenumbruch und einmal mit 23 Leerzeichen. Habt ihr eine Idee wie man das lösen kann? Ich habe die Variante vom Post #2.031 schon versucht jedoch wäre das viel zu mühsam. Da ich nie weiß wie viele Leerzeichen vorhanden sind.

Ich habe mich dann etwas bei Regex eingelesen und mir das so zusammengebaut:
- searchstring: 'Kontoauszug\s*\K\d+'
Auf dieser weite konnte ich 2018 filtern aber nicht den Zeilenumbruch. Hier steck ich jetzt fest.
 
Hatte das auf einer regex test seite ausprobiert. Da ging es... Hmm komisch
 
Kontoauszug\n2020, wenn hinter dem Kontoauszug kein Leerzeichen mehr kommt
 
Mhhh, leider hat das auch nicht geklappt. Hab jetzt selber noch mehrmals probiert aber leider ohne erfolg.
Sonnst noch jemand eine Idee? Kann man irgendwie die OCR Erkennung schärfer stellen? Im Dokument steht ja auch hintereinander "Kontoauszug 2020" jedoch wird das mit einem Zeilenumbruch erkannt.
 
Das Probier ich mal. Ich hatte eigentlich mit einem Konica Minolta auf 600dpi gescannt. Ich werd mir einen reinen Dokumenten Scanner besorgen. Danke vorerst. 👍
 
Meiner Beobachtung nach muss eine höhere Auflösung nicht unbedingt besser sein. Probiere einfach mal mit 300DPI und schwarzweiß.
 
  • Like
Reaktionen: AudiQ7
Wow du hattest recht. Ich dachte umso besser die Auflösung um so besser das Ergebnis. Aber hab jetzt mit 200 und 300dpi ein viel besseres Ergebnis als mit 600dpi.

Nun funktionieren auch die Abfragen!(y)

Danke für das Tolle tool und dem Super Support hier in der Community.
 
  • Like
Reaktionen: geimist
Ich hab nochmals kurz eine andere Frage. Ihr sucht nach Dokumenten ja auch in der Synology Drive oder?
Damit die Datei durchsuchbar ist muss ich immer den hacken bei der "Erweiterten Suche" Aktivieren.
Gibt es dazu eine Lösung dass dies immer aktiv ist?

Bildschirmfoto 2022-09-28 um 22.18.50.png
 
In der mobilen Drive-App wird standardmäßig auch im Dateiinhalt gesucht. Meistens suche ich aber über SMB im Finder (Explorer von macOS). Da wird auch auf den Index von Universal Search zurückgegriffen.

Einige Output-Ordner werden auch via Drive lokal abgeglichen. Entsprechend sind sie dann natürlich auch lokal indiziert.
 
Danke für die tolle Arbeit. Ich benutze synOCR seit ein paar Monaten, um einen Scan-Ordner zu überwachen und neu eingescannte Dokumente gleich durchsuchbar zu machen. Funktioniert prima.

Jetzt habe ich aber ein zweites Profil erstellt, um Dokumente aus einem Archiv-Ordner ebenfalls zu verarbeiten. Dort sind 300.000 PDF-Dateien drin. Ich kann damit leben, dass das 2 Monate dauern wird.

Allerdings blockieren diese Dokumente die Überwachung des Scan-Ordners.

Ich wollte nun in das Archiv-Profil wieder deaktivieren, damit das Scanner-Profil wieder zum Zuge kommt. Die Verarbeitung der Dateien im Archiv-Ordner hört aber nicht auf. Ich habe synOCR schon im Aufgabenplaner deaktiviert und neu gestartet. SynOCR wird aber immer wieder neu aufgerufen mit Dateien aus dem Archiv-Ordner. Ich habe auch schon SynOCR in Docker gestoppt. Die Aufrufe gehen aber immer weiter.

Wie kann ich die Ausführung stoppen?
Gibt es eine Möglichkeit, Profile zu priorisieren?
 
Es gibt mehrere Möglichkeiten:
  • Das geht mit dem Button über die Startseite in der GUI, sofern der aktuelle Ablauf nicht über den Aufgabenplaner mit dem Benutzer root gestartet wurde. In DSM 6 funktioniert das unabhängig davon.
  • Alternativ im Aufgabenplaner oder der Shell (als user root) diese zwei Befehle absetzen:
    Bash:
    /bin/killall synOCR.sh
    /usr/local/bin/docker stop -t 0 synOCR
  • DS Neustarten
  • Quellordner temporär umbenennen

Warum hat es mit deinen Versuchen nicht geklappt?:
  • Der Prozess läuft bereits im Hintergrund.
    • Das (de-)aktivieren des Profils bezieht sich auf die Überwachung des Quellordners.
    • Das Stoppen des Pakets betrifft hauptsächlich die GUI - ab v1.2.0.12 auch das Monitoring
  • Der Dockercontainer synOCR wird für jedes PDF erneut temporär erstellt. Beendet man ihn, unterbricht man lediglich die Bearbeitung eines PDF-Dokuments.
 
Ich habe auch schon SynOCR in Docker gestoppt.
Das hast du definitiv nicht gemacht, weil die Applikation nicht in Docker läuft. 😉 Du hast eher versucht, OCRmyPDF zu stoppen, also den Container, der die Verarbeitung im Hintergrund durchführt und den synOCR steuert, das kann aber nicht funktionieren, weil die Applikation dieses Paket immer wieder neue in Docker aufruft, eben um neue Dokumente zu verarbeiten.
 
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat