synOCR synOCR - GUI für OCRmyPDF

Point85

Benutzer
Mitglied seit
21. Mrz 2022
Beiträge
18
Punkte für Reaktionen
5
Punkte
53
Hallo zusammen,
ich habe seit heute ein großes Problem, nach der Aktualisierung auf 1.4.0

SynOCR erstellt keine Dokumente mehr und verschwinden im Nirvana.

Ich sehe das Dokument wird erfasst von SynOCR und läuft übern Docker, ab da kann ich es nicht mehr nachvollziehen was passiert, das Dokument ist einfach weg.

Im Anhang ist ein LOG.

Was ich gemacht habe: SynOCR neugestartet, NAS (HA Cluster) neugestartet, auch alle Pakete nach aktul. gesucht, alles ohne Erfolg.

Modelname: DS1621+, DSM7.2-64570 Update 1

Gruß
Martin
 

Anhänge

  • synOCR_2023-07-07_07-35-23.txt
    6,9 KB · Aufrufe: 9

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.186
Punkte für Reaktionen
1.015
Punkte
224
Weg sind die Dokumente nicht, das schonmal zur Beruhigung, die Originale liegen im von dir festgelegten Backup-Ordnee.
 

Point85

Benutzer
Mitglied seit
21. Mrz 2022
Beiträge
18
Punkte für Reaktionen
5
Punkte
53
Ja, gut das da noch die Dokumente liegen, hatte schon Angst das die Kollegin alles wieder Scannen muss.
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.186
Punkte für Reaktionen
1.015
Punkte
224
Den Ordner hast du in der Konfiguration festgelegt, wenn du nicht mehr weißt, wo die Dokumente dann liegen, schau einfach noch mal in der Konfiguration nach. Mit dem Fehler an sich muss Stephan dir helfen, sobald er wach ist. 😉
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Ok, laut log ist auf deinem PC das Modul pypdf nicht vorhanden. Dadurch bricht das Skript ab.
Wo deine Dokumente sind steht im log
backupfiles after: (purge backup deactivated)
Source directory: /volume2/SWE/SWE Nummer/OCR/
Target directory: /volume2/SWE/SWE Nummer/Ablage Belege/
BackUp directory: /volume2/Quellcode/SynOCR/Backup/

Warum das mit der Installation nicht geklappt hat, kann ich dir jetzt nicht sagen. Bin noch im Urlaub und habe im Moment nur das Handy. Da kann Stephan dir sicher weiter helfen
 

Point85

Benutzer
Mitglied seit
21. Mrz 2022
Beiträge
18
Punkte für Reaktionen
5
Punkte
53
Hallo,

kurze Rückinfo:

Ich bin wieder auf die 1.3.3 zurückgesprungen (da unserer Mitarbeiter die Dokumente benötigen) und da hat es sofort auf Anhieb funktioniert und die Dokumente werden bearbeitet.

Ich teste nächste Woche nochmal die 1.4.0 ......
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.508
Punkte für Reaktionen
1.344
Punkte
234
Hallo zusammen,

du bist jetzt der Dritte, der dieses Problem hat(te).

Hintergrund:
Ab dieser Version wird bei einem Update die virtuelle Pythonumgebung für synOCR beim Update beibehalten um sie nicht jedes Mal (bei einem Update) neu erstellen zu müssen. Nach einem Update sollte sie aber evaluiert werden. Bei mir klappt das immer zuverlässig, aber offensichtlich nicht überall. Ich konnte da auch noch keinen Fehler finden …

Da werde ich dieses Feature wohl erst einmal in einem folgenden Release herausnehmen.

@Point85:
Dazu musstest du synOCR wahrscheinlich auch deinstallieren und ein Backup zurückspielen, richtig? In dem Fall wäre die alte Pythonumgebung eh gelöscht und es hätte anschließend auch mit Version 1.4.0 klappen müssen.

Man kann die synOCR Pythonumgebung auch manuell löschen (Terminal oder Aufgabenplaner - am besten als root):
rm -rf /usr/syno/synoman/webman/3rdparty/synOCR/python3_env

Beim nächsten Programmlauf wird sie dann neu aufgebaut.

Sorry für die Schwierigkeiten …
 
Zuletzt bearbeitet:

Point85

Benutzer
Mitglied seit
21. Mrz 2022
Beiträge
18
Punkte für Reaktionen
5
Punkte
53
Hallo Stephan 😊,
Ja, ich musste es deinstallieren und mein Backup einspielen.

Ich mache nächste Woche erneut das Update und schaue ob es dann funktioniert und lösche manuell die python3 Umgebung.
 

Point85

Benutzer
Mitglied seit
21. Mrz 2022
Beiträge
18
Punkte für Reaktionen
5
Punkte
53
Hallo Stephan,
anbei noch ein paar Log's von heute früh, die ich noch hatte.
 

Anhänge

  • LOG.zip
    38,8 KB · Aufrufe: 5
  • Like
Reaktionen: geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.508
Punkte für Reaktionen
1.344
Punkte
234
Ich habe ein angepasstes Release v1.4.1 bereitgestellt.
Neben dem Deaktivieren des Backups der Pythonumgebung wurde noch ein kleiner Fehler beim Berechnen des geloggten Seitenzählers behoben und die Apprise bibliothek wurde auf Version 1.4.5 angehoben (damit soll jetzt wohl u.a. auch WhatsApp als Notifykanal möglich sein).

DOWNLOAD:

➜ SPK DSM6

➜ SPK DSM7


Für alle, die bereits v1.4.0 problemlos installiert haben, besteht kein zwingender Grund zum Update.
 
Zuletzt bearbeitet:

Point85

Benutzer
Mitglied seit
21. Mrz 2022
Beiträge
18
Punkte für Reaktionen
5
Punkte
53
Hallo Stephan,
ich habe jetzt auch die 1.4.1 getestet: Installation ging schnell und es funktioniert alles!

Danke für das schnell Update! 😊
Da kann das Wochenende kommen.
 
  • Like
Reaktionen: geimist

Andreas Blume

Benutzer
Mitglied seit
23. Jan 2023
Beiträge
8
Punkte für Reaktionen
1
Punkte
3
Erfahrungsbericht synOCR
Nachdem ich mir eine neue SYNOLOGY 220+ gegönnt habe sowie einen neuen Drucker der auch in Folder scannen kann, habe ich mich dann tatsächlich auch an das Thema synOCR gewagt.
Es gab tatsächlich ein paar Hürden, die erste war, dass ich in diesem Thread auf der Seite 1 begonnen habe und verwundert war, dass ich das Paket nicht unter den Community Paketen gefunden habe.
Der Thread hat zwischenzeitlich 187 Seiten, ich habe mich dann halt von hinten nach vorne gearbeitet, viel gelesen, viel über Probleme mit DSM 7.2 gehört, das Paket dann gefunden und installiert.
Zuerst einmal einen RIESIGEN Dank an @geimist und alle anderen aktiven Forenbeteiligten für Eure tolle Arbeit, die Mühe und alle die vielen Hilfestellungen.

Die Installation verlief ohne Probleme, die Warnung von Synology war zu erwarten und konnte getrost ignoriert werden.
Die Konfiguration und die Hilfebeschreibungen waren für mich zwar nicht 100% selbsterklärend (80% schon), aber mit ein wenig lesen kommt man sehr weit.
Am Anfang waren mir die Unterschiede zwischen Profilen und der Konfigurationsdatei nicht ganz klar, was ich jetzt verstanden habe:
  • Ein Profil pro überwachten Ordner
  • Im Profil dann die Konfiguration über die YAML Datei, wenn man über die TAGS die Dateien verschieben und benennen will
Meine Anforderungen an die Sortierung ist tatsächlich ziemlich komplex, aber mit dieser Struktur komme ich klar.
RegEx ist tatsächlich eine Herausforderung, aber der kann man sich stellen.

Was ich ebenfalls verstanden habe:
  • Es gibt keine Reihenfolge bei der Abarbeitung der Profile, was nichts ausmacht, wenn man die grobe thematische Trennung (Betrieb, Privat) über getrennte Scan-Ordner macht.
Was ich vermutlich verstanden habe ist:
  • Die Regeln in der YAML Datei werden der Reihe nach abgearbeitet: rule_01 vor rule_99 wenn sie in dieser Reihenfolge in der Datei stehen.
Was ich interpretiere und das ist gleichzeitig meine Frage:
  • Wenn eine Regel zieht (z.B. rule_03), werden die nächsten Regel nicht mehr weiterverarbeitet?
  • Ich könnte also eine Rule_99 machen, in der ich das PDF in ein Verzeichnis "zu bearbeiten" verschiebe
Liege ich damit richtig?

Vielen Dank schon mal an alle die mir antworten und nochmals Danke für die großartige Arbeit

Andreas
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.508
Punkte für Reaktionen
1.344
Punkte
234
Es gab tatsächlich ein paar Hürden, die erste war, dass ich in diesem Thread auf der Seite 1 begonnen habe und verwundert war, dass ich das Paket nicht unter den Community Paketen gefunden habe.
Ich muss endlich mal den ersten Post überarbeiten und einen Mod bitten, diesen dann damit zu ersetzen. Leider kann man das hier nicht selbst machen.

Am Anfang waren mir die Unterschiede zwischen Profilen und der Konfigurationsdatei nicht ganz klar, was ich jetzt verstanden habe:
  • Ein Profil pro überwachten Ordner
  • Im Profil dann die Konfiguration über die YAML Datei, wenn man über die TAGS die Dateien verschieben und benennen will
Kommt drauf an, was du meinst.
Am Anfang gab es keine Datenbank, sondern nur eine textbasierte Konfigurationsdatei. Später wurde diese durch die Datenbank abgelöst, was die Konfiguration beliebiger Benutzerprofile ermöglichte.
Falls du mit Konfigurationsdatei die YAML-Datei meinst, so dient sie lediglich der Beschreibung der Regeln und könnte theoretisch auch von verschiedenen Profilen genutzt werden. Diese Regeldatei ist optional um detailliertere Regeln als in der GUI definieren zu können. Idealerweise würde die YAML-Datei auch in der GUI abgebildet sein, aber hier mangelt es derzeit an Umsetzungsfähigkeiten.

Es gibt keine Reihenfolge bei der Abarbeitung der Profile, was nichts ausmacht, wenn man die grobe thematische Trennung (Betrieb, Privat) über getrennte Scan-Ordner macht.
Die Abarbeitung der Profile sollte alphabetisch erfolgen. Also Betrieb kommt vor Privat.
Die Regeln in der YAML Datei werden der Reihe nach abgearbeitet: rule_01 vor rule_99 wenn sie in dieser Reihenfolge in der Datei stehen.
Im Endeffekt richtig.

Was ich interpretiere und das ist gleichzeitig meine Frage:
  • Wenn eine Regel zieht (z.B. rule_03), werden die nächsten Regel nicht mehr weiterverarbeitet?
  • Ich könnte also eine Rule_99 machen, in der ich das PDF in ein Verzeichnis "zu bearbeiten" verschiebe
Liege ich damit richtig?
Es gibt derzeit keine logische Verknüpfung von Regeln. Die Umsetzung steht aber im Raum. Derzeit werden alle erfüllten Regeln ausgeführt. Ggf. werden dann, sofern möglich, Hardlinks erstellt.
 

Andreas Blume

Benutzer
Mitglied seit
23. Jan 2023
Beiträge
8
Punkte für Reaktionen
1
Punkte
3
Es gibt derzeit keine logische Verknüpfung von Regeln. Die Umsetzung steht aber im Raum. Derzeit werden alle erfüllten Regeln ausgeführt. Ggf. werden dann, sofern möglich, Hardlinks erstellt.

Hallo Stephan,

vielen Dank für die prompte Antwort.
Jetzt kommt mein Problem, für das ich keine Lösung bisher finde.
Ich will eine Default Regel haben die dann zieht wenn alle anderen Regeln nicht greifen. Im Prinzip soll dann das PDF in ein Verzeichnis geschoben werden und seinen originalen Namen behalten.
In meinem Profil verwende ich für die Umbenennung nur §tag, in der YAML Datei wird dann §tag mit weiteren Flags ergänzt.
Das funktioniert solange ich für jedes Dokument mind. eine Regel habe. Nicht jedoch wenn es keinen Match gibt, dann landet zwar die Datei im Default Output aber ohne Dateiname, weil ich §tit nicht verwende :-(
Ich wollte aber Scan_4711 nicht in ALLEN Dateinamen haben.

Vielleicht hast du eine geniale Lösung?
(Der Versuch mit einem 2. Scan Profil schlägt fehl)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.508
Punkte für Reaktionen
1.344
Punkte
234
Herzlichen Glückwunsch! Du hast gleich einen Fehler gefunden. 🙈
Eigentlich sollte in dieser Version ein Fallback greifen, wenn der Dateiname aufgrund einer fehlenden Umbenennungssyntax leer bleibt.

Wenn du magst, kannst du mal diese Version probieren.

Einzige Einschränkung: Der alternative Dateiname ist fest nach diesem Schema codiert: YYYY-MM-DD_HH-MM_$tit
Ansonst sollte der Defaultausgabeordner der GUI für dich als alternativer Ausgabeordner eine funktionale Lösung sein.
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
880
Punkte für Reaktionen
179
Punkte
63
Hallo Andreas,
ich denke schon das das geht. Hierzu definierst Du normal Deine Regeln.
Die Backup Regel als erste Regel sieht dann so aus, wobei Du in die Subregeln alle Deine Regeln zuvor, also auch zB als RegEx einfügen musst

Code:
rule_01:
    tagname: §tagname_RegEx
    tagname_RegEx: (?i)(.*)
    condition: none
    subrules:
    - searchstring: (.*)
      source: filename

Karsten
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
880
Punkte für Reaktionen
179
Punkte
63
Sehe gerade die Antwort von Stephan, toll.... Aber meine Lösung geht auch. Hab es gerade nochmal getestet.
Im Übrigen bleibt ja immer noch das Problem bei §tagname_RegEx, wenn er den default ausgibt.
 

Andreas Blume

Benutzer
Mitglied seit
23. Jan 2023
Beiträge
8
Punkte für Reaktionen
1
Punkte
3
Wenn du magst, kannst du mal diese Version probieren.
Hallo Stephan,

die Idee war gut, nur habe ich da wohl was falsch gemacht, denn jetzt wird gar nichts mehr gescannt, die Aufgaben nicht abgearbeitet und keine Logdatei erzeugt.
Was habe ich gemacht?
Nach dem Download die spk Datai über das Paketzentrum und eine manuelle Installation "drüber" installiert.
Dienst danach gestoppt, gestartet - aber nichts passiert?

Und nun?

Vielen Dank
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.508
Punkte für Reaktionen
1.344
Punkte
234
  • Du nutzt die Ordnerüberwachung?
  • Hast du vielleicht in der GUI ein weiteres Profil erstellt, in welchem die Ordner nicht korrekt konfiguriert worden sind?
  • Was sagt die Logdatei inotify.log? Du kannst sie mir auch gern über den Link in meiner Signatur hochladen.
  • Welches Symbol ist auf der Startseite der GUI zu sehen (blaue Sanduhr, grüner Haken, rotes Kreuz)?
  • Funktioniert ein manueller Programmlauf?
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat