synOCR synOCR - GUI für OCRmyPDF

Point85 · 07. Juli 2023

Hallo zusammen,
ich habe seit heute ein großes Problem, nach der Aktualisierung auf 1.4.0

SynOCR erstellt keine Dokumente mehr und verschwinden im Nirvana.

Ich sehe das Dokument wird erfasst von SynOCR und läuft übern Docker, ab da kann ich es nicht mehr nachvollziehen was passiert, das Dokument ist einfach weg.

Im Anhang ist ein LOG.

Was ich gemacht habe: SynOCR neugestartet, NAS (HA Cluster) neugestartet, auch alle Pakete nach aktul. gesucht, alles ohne Erfolg.

Modelname: DS1621+, DSM7.2-64570 Update 1

Gruß
Martin

Monacum · 07. Juli 2023

Weg sind die Dokumente nicht, das schonmal zur Beruhigung, die Originale liegen im von dir festgelegten Backup-Ordnee.

Point85 · 07. Juli 2023

Ja, gut das da noch die Dokumente liegen, hatte schon Angst das die Kollegin alles wieder Scannen muss.

Monacum · 07. Juli 2023

Den Ordner hast du in der Konfiguration festgelegt, wenn du nicht mehr weißt, wo die Dokumente dann liegen, schau einfach noch mal in der Konfiguration nach. Mit dem Fehler an sich muss Stephan dir helfen, sobald er wach ist.

Gthorsten · 07. Juli 2023

Ok, laut log ist auf deinem PC das Modul pypdf nicht vorhanden. Dadurch bricht das Skript ab.
Wo deine Dokumente sind steht im log
backupfiles after: (purge backup deactivated)
Source directory: /volume2/SWE/SWE Nummer/OCR/
Target directory: /volume2/SWE/SWE Nummer/Ablage Belege/
BackUp directory: /volume2/Quellcode/SynOCR/Backup/

Warum das mit der Installation nicht geklappt hat, kann ich dir jetzt nicht sagen. Bin noch im Urlaub und habe im Moment nur das Handy. Da kann Stephan dir sicher weiter helfen

Point85 · 07. Juli 2023

Hallo,

kurze Rückinfo:

Ich bin wieder auf die 1.3.3 zurückgesprungen (da unserer Mitarbeiter die Dokumente benötigen) und da hat es sofort auf Anhieb funktioniert und die Dokumente werden bearbeitet.

Ich teste nächste Woche nochmal die 1.4.0 ......

geimist · 07. Juli 2023

Hallo zusammen,

du bist jetzt der Dritte, der dieses Problem hat(te).

Hintergrund:
Ab dieser Version wird bei einem Update die virtuelle Pythonumgebung für synOCR beim Update beibehalten um sie nicht jedes Mal (bei einem Update) neu erstellen zu müssen. Nach einem Update sollte sie aber evaluiert werden. Bei mir klappt das immer zuverlässig, aber offensichtlich nicht überall. Ich konnte da auch noch keinen Fehler finden …

Da werde ich dieses Feature wohl erst einmal in einem folgenden Release herausnehmen.

@Point85:
Dazu musstest du synOCR wahrscheinlich auch deinstallieren und ein Backup zurückspielen, richtig? In dem Fall wäre die alte Pythonumgebung eh gelöscht und es hätte anschließend auch mit Version 1.4.0 klappen müssen.

Man kann die synOCR Pythonumgebung auch manuell löschen (Terminal oder Aufgabenplaner - am besten als root):
rm -rf /usr/syno/synoman/webman/3rdparty/synOCR/python3_env

Beim nächsten Programmlauf wird sie dann neu aufgebaut.

Sorry für die Schwierigkeiten …

Point85 · 07. Juli 2023

Hallo Stephan

,
Ja, ich musste es deinstallieren und mein Backup einspielen.

Ich mache nächste Woche erneut das Update und schaue ob es dann funktioniert und lösche manuell die python3 Umgebung.

geimist · 07. Juli 2023

Falls du noch zufällig das erste Log nach dem problematischen Update hast, würde ich gern mal reinsehen.

Point85 · 07. Juli 2023

Hallo Stephan,
anbei noch ein paar Log's von heute früh, die ich noch hatte.

geimist · 07. Juli 2023

Ich habe ein angepasstes Release v1.4.1 bereitgestellt.
Neben dem Deaktivieren des Backups der Pythonumgebung wurde noch ein kleiner Fehler beim Berechnen des geloggten Seitenzählers behoben und die Apprise bibliothek wurde auf Version 1.4.5 angehoben (damit soll jetzt wohl u.a. auch WhatsApp als Notifykanal möglich sein).

DOWNLOAD:

➜ SPK DSM6

➜ SPK DSM7

Für alle, die bereits v1.4.0 problemlos installiert haben, besteht kein zwingender Grund zum Update.

Point85 · 07. Juli 2023

Hallo Stephan,
ich habe jetzt auch die 1.4.1 getestet: Installation ging schnell und es funktioniert alles!

Danke für das schnell Update!

Da kann das Wochenende kommen.

Andreas Blume · 13. Juli 2023

Erfahrungsbericht synOCR
Nachdem ich mir eine neue SYNOLOGY 220+ gegönnt habe sowie einen neuen Drucker der auch in Folder scannen kann, habe ich mich dann tatsächlich auch an das Thema synOCR gewagt.
Es gab tatsächlich ein paar Hürden, die erste war, dass ich in diesem Thread auf der Seite 1 begonnen habe und verwundert war, dass ich das Paket nicht unter den Community Paketen gefunden habe.
Der Thread hat zwischenzeitlich 187 Seiten, ich habe mich dann halt von hinten nach vorne gearbeitet, viel gelesen, viel über Probleme mit DSM 7.2 gehört, das Paket dann gefunden und installiert.
Zuerst einmal einen RIESIGEN Dank an @geimist und alle anderen aktiven Forenbeteiligten für Eure tolle Arbeit, die Mühe und alle die vielen Hilfestellungen.

Die Installation verlief ohne Probleme, die Warnung von Synology war zu erwarten und konnte getrost ignoriert werden.
Die Konfiguration und die Hilfebeschreibungen waren für mich zwar nicht 100% selbsterklärend (80% schon), aber mit ein wenig lesen kommt man sehr weit.
Am Anfang waren mir die Unterschiede zwischen Profilen und der Konfigurationsdatei nicht ganz klar, was ich jetzt verstanden habe:

Ein Profil pro überwachten Ordner
Im Profil dann die Konfiguration über die YAML Datei, wenn man über die TAGS die Dateien verschieben und benennen will

Meine Anforderungen an die Sortierung ist tatsächlich ziemlich komplex, aber mit dieser Struktur komme ich klar.
RegEx ist tatsächlich eine Herausforderung, aber der kann man sich stellen.

Was ich ebenfalls verstanden habe:

Es gibt keine Reihenfolge bei der Abarbeitung der Profile, was nichts ausmacht, wenn man die grobe thematische Trennung (Betrieb, Privat) über getrennte Scan-Ordner macht.

Was ich vermutlich verstanden habe ist:

Die Regeln in der YAML Datei werden der Reihe nach abgearbeitet: rule_01 vor rule_99 wenn sie in dieser Reihenfolge in der Datei stehen.

Was ich interpretiere und das ist gleichzeitig meine Frage:

Wenn eine Regel zieht (z.B. rule_03), werden die nächsten Regel nicht mehr weiterverarbeitet?
Ich könnte also eine Rule_99 machen, in der ich das PDF in ein Verzeichnis "zu bearbeiten" verschiebe

Liege ich damit richtig?

Vielen Dank schon mal an alle die mir antworten und nochmals Danke für die großartige Arbeit

Andreas

geimist · 13. Juli 2023

Andreas Blume schrieb:
Es gab tatsächlich ein paar Hürden, die erste war, dass ich in diesem Thread auf der Seite 1 begonnen habe und verwundert war, dass ich das Paket nicht unter den Community Paketen gefunden habe.

Ich muss endlich mal den ersten Post überarbeiten und einen Mod bitten, diesen dann damit zu ersetzen. Leider kann man das hier nicht selbst machen.

Andreas Blume schrieb:
Am Anfang waren mir die Unterschiede zwischen Profilen und der Konfigurationsdatei nicht ganz klar, was ich jetzt verstanden habe:

Ein Profil pro überwachten Ordner

Im Profil dann die Konfiguration über die YAML Datei, wenn man über die TAGS die Dateien verschieben und benennen will

Kommt drauf an, was du meinst.
Am Anfang gab es keine Datenbank, sondern nur eine textbasierte Konfigurationsdatei. Später wurde diese durch die Datenbank abgelöst, was die Konfiguration beliebiger Benutzerprofile ermöglichte.
Falls du mit Konfigurationsdatei die YAML-Datei meinst, so dient sie lediglich der Beschreibung der Regeln und könnte theoretisch auch von verschiedenen Profilen genutzt werden. Diese Regeldatei ist optional um detailliertere Regeln als in der GUI definieren zu können. Idealerweise würde die YAML-Datei auch in der GUI abgebildet sein, aber hier mangelt es derzeit an Umsetzungsfähigkeiten.

Andreas Blume schrieb:
Es gibt keine Reihenfolge bei der Abarbeitung der Profile, was nichts ausmacht, wenn man die grobe thematische Trennung (Betrieb, Privat) über getrennte Scan-Ordner macht.

Die Abarbeitung der Profile sollte alphabetisch erfolgen. Also Betrieb kommt vor Privat.

Andreas Blume schrieb:
Die Regeln in der YAML Datei werden der Reihe nach abgearbeitet: rule_01 vor rule_99 wenn sie in dieser Reihenfolge in der Datei stehen.

Im Endeffekt richtig.

Andreas Blume schrieb:
Was ich interpretiere und das ist gleichzeitig meine Frage:

Wenn eine Regel zieht (z.B. rule_03), werden die nächsten Regel nicht mehr weiterverarbeitet?

Ich könnte also eine Rule_99 machen, in der ich das PDF in ein Verzeichnis "zu bearbeiten" verschiebe

Liege ich damit richtig?

Es gibt derzeit keine logische Verknüpfung von Regeln. Die Umsetzung steht aber im Raum. Derzeit werden alle erfüllten Regeln ausgeführt. Ggf. werden dann, sofern möglich, Hardlinks erstellt.

Andreas Blume · 13. Juli 2023

geimist schrieb:
Es gibt derzeit keine logische Verknüpfung von Regeln. Die Umsetzung steht aber im Raum. Derzeit werden alle erfüllten Regeln ausgeführt. Ggf. werden dann, sofern möglich, Hardlinks erstellt.

Hallo Stephan,

vielen Dank für die prompte Antwort.
Jetzt kommt mein Problem, für das ich keine Lösung bisher finde.
Ich will eine Default Regel haben die dann zieht wenn alle anderen Regeln nicht greifen. Im Prinzip soll dann das PDF in ein Verzeichnis geschoben werden und seinen originalen Namen behalten.
In meinem Profil verwende ich für die Umbenennung nur §tag, in der YAML Datei wird dann §tag mit weiteren Flags ergänzt.
Das funktioniert solange ich für jedes Dokument mind. eine Regel habe. Nicht jedoch wenn es keinen Match gibt, dann landet zwar die Datei im Default Output aber ohne Dateiname, weil ich §tit nicht verwende :-(
Ich wollte aber Scan_4711 nicht in ALLEN Dateinamen haben.

Vielleicht hast du eine geniale Lösung?
(Der Versuch mit einem 2. Scan Profil schlägt fehl)

geimist · 13. Juli 2023

Herzlichen Glückwunsch! Du hast gleich einen Fehler gefunden.

Eigentlich sollte in dieser Version ein Fallback greifen, wenn der Dateiname aufgrund einer fehlenden Umbenennungssyntax leer bleibt.

Wenn du magst, kannst du mal diese Version probieren.

Einzige Einschränkung: Der alternative Dateiname ist fest nach diesem Schema codiert: YYYY-MM-DD_HH-MM_$tit
Ansonst sollte der Defaultausgabeordner der GUI für dich als alternativer Ausgabeordner eine funktionale Lösung sein.

Struppix · 13. Juli 2023

Hallo Andreas,
ich denke schon das das geht. Hierzu definierst Du normal Deine Regeln.
Die Backup Regel als erste Regel sieht dann so aus, wobei Du in die Subregeln alle Deine Regeln zuvor, also auch zB als RegEx einfügen musst

Code:

rule_01:
    tagname: §tagname_RegEx
    tagname_RegEx: (?i)(.*)
    condition: none
    subrules:
    - searchstring: (.*)
      source: filename

Karsten

Struppix · 13. Juli 2023

Sehe gerade die Antwort von Stephan, toll.... Aber meine Lösung geht auch. Hab es gerade nochmal getestet.
Im Übrigen bleibt ja immer noch das Problem bei §tagname_RegEx, wenn er den default ausgibt.

Andreas Blume · 13. Juli 2023

geimist schrieb:
Wenn du magst, kannst du mal diese Version probieren.

Hallo Stephan,

die Idee war gut, nur habe ich da wohl was falsch gemacht, denn jetzt wird gar nichts mehr gescannt, die Aufgaben nicht abgearbeitet und keine Logdatei erzeugt.
Was habe ich gemacht?
Nach dem Download die spk Datai über das Paketzentrum und eine manuelle Installation "drüber" installiert.
Dienst danach gestoppt, gestartet - aber nichts passiert?

Und nun?

Vielen Dank

geimist · 13. Juli 2023

Du nutzt die Ordnerüberwachung?
Hast du vielleicht in der GUI ein weiteres Profil erstellt, in welchem die Ordner nicht korrekt konfiguriert worden sind?
Was sagt die Logdatei inotify.log? Du kannst sie mir auch gern über den Link in meiner Signatur hochladen.
Welches Symbol ist auf der Startseite der GUI zu sehen (blaue Sanduhr, grüner Haken, rotes Kreuz)?
Funktioniert ein manueller Programmlauf?

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

DOWNLOAD:​

➜ SPK DSM6​

➜ SPK DSM7​

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat

DOWNLOAD:

➜ SPK DSM6

➜ SPK DSM7