synOCR synOCR - GUI für OCRmyPDF

AudiQ7

Benutzer
Mitglied seit
31. Mrz 2016
Beiträge
18
Punkte für Reaktionen
1
Punkte
3
Hallo zusammen,
ich bin gerade dabei synocr einzurichten und scheite an vermutlich den einfachsten Sachen. Ich habe hier schon viel gelesen aber leider bin ich nicht zum gewünschten erfolg gekommen.

Ich habe mehrere Dokumente wo immer der Ausdruck "Kontoauszug *Jahr*" steht soll. Ich dachte ich löse es einfach mit
- searchstring: "Kontoauszug [[:digit:]]{4}"

Jedoch funktioniert es nicht. Den in OCR aufgelöst sieht es folgendermaßen aus:
Dokument 1:
Code:
Kontoauszug
2020
Dokument2:
Code:
Kontoauszug                       2018

Also einmal mit Zeilenumbruch und einmal mit 23 Leerzeichen. Habt ihr eine Idee wie man das lösen kann? Ich habe die Variante vom Post #2.031 schon versucht jedoch wäre das viel zu mühsam. Da ich nie weiß wie viele Leerzeichen vorhanden sind.

Ich habe mich dann etwas bei Regex eingelesen und mir das so zusammengebaut:
- searchstring: 'Kontoauszug\s*\K\d+'
Auf dieser weite konnte ich 2018 filtern aber nicht den Zeilenumbruch. Hier steck ich jetzt fest.
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Hatte das auf einer regex test seite ausprobiert. Da ging es... Hmm komisch
 

AudiQ7

Benutzer
Mitglied seit
31. Mrz 2016
Beiträge
18
Punkte für Reaktionen
1
Punkte
3
Vielleicht habe ich auch ein denk Fehler. Im erweiterten log schaut es so aus: CB8F7D6E-CE3E-4CDA-A358-F900E34EB112.jpeg
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
Kontoauszug\n2020, wenn hinter dem Kontoauszug kein Leerzeichen mehr kommt
 

AudiQ7

Benutzer
Mitglied seit
31. Mrz 2016
Beiträge
18
Punkte für Reaktionen
1
Punkte
3
Mhhh, leider hat das auch nicht geklappt. Hab jetzt selber noch mehrmals probiert aber leider ohne erfolg.
Sonnst noch jemand eine Idee? Kann man irgendwie die OCR Erkennung schärfer stellen? Im Dokument steht ja auch hintereinander "Kontoauszug 2020" jedoch wird das mit einem Zeilenumbruch erkannt.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234

AudiQ7

Benutzer
Mitglied seit
31. Mrz 2016
Beiträge
18
Punkte für Reaktionen
1
Punkte
3
Das Probier ich mal. Ich hatte eigentlich mit einem Konica Minolta auf 600dpi gescannt. Ich werd mir einen reinen Dokumenten Scanner besorgen. Danke vorerst. 👍
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Meiner Beobachtung nach muss eine höhere Auflösung nicht unbedingt besser sein. Probiere einfach mal mit 300DPI und schwarzweiß.
 
  • Like
Reaktionen: AudiQ7

AudiQ7

Benutzer
Mitglied seit
31. Mrz 2016
Beiträge
18
Punkte für Reaktionen
1
Punkte
3
Wow du hattest recht. Ich dachte umso besser die Auflösung um so besser das Ergebnis. Aber hab jetzt mit 200 und 300dpi ein viel besseres Ergebnis als mit 600dpi.

Nun funktionieren auch die Abfragen!(y)

Danke für das Tolle tool und dem Super Support hier in der Community.
 
  • Like
Reaktionen: geimist

AudiQ7

Benutzer
Mitglied seit
31. Mrz 2016
Beiträge
18
Punkte für Reaktionen
1
Punkte
3
Ich hab nochmals kurz eine andere Frage. Ihr sucht nach Dokumenten ja auch in der Synology Drive oder?
Damit die Datei durchsuchbar ist muss ich immer den hacken bei der "Erweiterten Suche" Aktivieren.
Gibt es dazu eine Lösung dass dies immer aktiv ist?

Bildschirmfoto 2022-09-28 um 22.18.50.png
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
In der mobilen Drive-App wird standardmäßig auch im Dateiinhalt gesucht. Meistens suche ich aber über SMB im Finder (Explorer von macOS). Da wird auch auf den Index von Universal Search zurückgegriffen.

Einige Output-Ordner werden auch via Drive lokal abgeglichen. Entsprechend sind sie dann natürlich auch lokal indiziert.
 

stdr

Benutzer
Mitglied seit
29. Sep 2022
Beiträge
3
Punkte für Reaktionen
1
Punkte
3
Danke für die tolle Arbeit. Ich benutze synOCR seit ein paar Monaten, um einen Scan-Ordner zu überwachen und neu eingescannte Dokumente gleich durchsuchbar zu machen. Funktioniert prima.

Jetzt habe ich aber ein zweites Profil erstellt, um Dokumente aus einem Archiv-Ordner ebenfalls zu verarbeiten. Dort sind 300.000 PDF-Dateien drin. Ich kann damit leben, dass das 2 Monate dauern wird.

Allerdings blockieren diese Dokumente die Überwachung des Scan-Ordners.

Ich wollte nun in das Archiv-Profil wieder deaktivieren, damit das Scanner-Profil wieder zum Zuge kommt. Die Verarbeitung der Dateien im Archiv-Ordner hört aber nicht auf. Ich habe synOCR schon im Aufgabenplaner deaktiviert und neu gestartet. SynOCR wird aber immer wieder neu aufgerufen mit Dateien aus dem Archiv-Ordner. Ich habe auch schon SynOCR in Docker gestoppt. Die Aufrufe gehen aber immer weiter.

Wie kann ich die Ausführung stoppen?
Gibt es eine Möglichkeit, Profile zu priorisieren?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Es gibt mehrere Möglichkeiten:
  • Das geht mit dem Button über die Startseite in der GUI, sofern der aktuelle Ablauf nicht über den Aufgabenplaner mit dem Benutzer root gestartet wurde. In DSM 6 funktioniert das unabhängig davon.
  • Alternativ im Aufgabenplaner oder der Shell (als user root) diese zwei Befehle absetzen:
    Bash:
    /bin/killall synOCR.sh
    /usr/local/bin/docker stop -t 0 synOCR
  • DS Neustarten
  • Quellordner temporär umbenennen

Warum hat es mit deinen Versuchen nicht geklappt?:
  • Der Prozess läuft bereits im Hintergrund.
    • Das (de-)aktivieren des Profils bezieht sich auf die Überwachung des Quellordners.
    • Das Stoppen des Pakets betrifft hauptsächlich die GUI - ab v1.2.0.12 auch das Monitoring
  • Der Dockercontainer synOCR wird für jedes PDF erneut temporär erstellt. Beendet man ihn, unterbricht man lediglich die Bearbeitung eines PDF-Dokuments.
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
Ich habe auch schon SynOCR in Docker gestoppt.
Das hast du definitiv nicht gemacht, weil die Applikation nicht in Docker läuft. 😉 Du hast eher versucht, OCRmyPDF zu stoppen, also den Container, der die Verarbeitung im Hintergrund durchführt und den synOCR steuert, das kann aber nicht funktionieren, weil die Applikation dieses Paket immer wieder neue in Docker aufruft, eben um neue Dokumente zu verarbeiten.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat