synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Du kannst mir gern mal privat ein Log hochladen. Den Link dazu findest du in meiner Signatur.

Um den User root im Aufgabenplaner auswählen zu können, muss man etwas die Liste nach oben scrollen, damit man ihn sieht:
Bildschirmfoto 2022-05-26 um 18.50.57.png
 

Glausehh

Benutzer
Mitglied seit
26. Mai 2022
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Hey Stephan
Das skript im Aufgabenplanner ist nicht sauber gelaufen, weiss nicht warum. Nach etwas gebastel nun ok. .. und der Berechtigungsfehler ist weg.
Danke für Deine Unterstützung.

Gruss Hans
 

Anhänge

  • 1653583565748.png
    1653583565748.png
    13,9 KB · Aufrufe: 9

psychochicken80

Benutzer
Mitglied seit
17. Mrz 2022
Beiträge
8
Punkte für Reaktionen
1
Punkte
53
Moin zusammen!
Es gab offenbar schon etwas länger keine neue Version mehr. Ich bin sehr an den neuen Features interessiert und würde mich hier gerne als Test-Kaninchen anbieten.
Gruß
Stefan
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Und dennoch wird im Hintergrund fleißig gewerkelt - nicht nur von mir, sondern auch von @Gthorsten :)
Die Features für die nächste Version (v.1.3.0) kannst du dir HIER schonmal ansehen. Aufgrund der neuen Funktionen war viel Umbauarbeit notwendig. Da wären Tests sehr willkommen (speziell bzgl. des Dateihandlings). Vielen Dank für dein Angebot. Das werde ich sicherlich aufgreifen (ich denke, es dauert auch nicht mehr lange).
 

lil-ac

Benutzer
Mitglied seit
14. Feb 2013
Beiträge
39
Punkte für Reaktionen
0
Punkte
6
Hallo zusammen, ich finde leider das Paket exiftool nicht. Welches muss ich installier oder wo finde ich es? Vielen Dank schon mal.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Das gibt es für DSM7 derzeit nicht. Mit der nächsten Version werden die Metadaten per Python geschrieben. Damit ist dann diese Abhängigkeit obsolet.

Man kann es aber auch manuell installieren, sofern du jetzt nicht darauf verzichten kannst.
 
Zuletzt bearbeitet:

SteffenT

Benutzer
Mitglied seit
16. Mrz 2007
Beiträge
53
Punkte für Reaktionen
2
Punkte
14
Hallo,

synOCR ändert immer meinen DateiNamen. Habe immer vor dem Dateinamen noch das Datum zu stehen (2022-05-28__Originalname). Bei OCR Rename-Syntax steht §tit. Trotzdem macht synOCR das Datum vor.
Hat jemand eine Idee, wie man das abstellt.

Danke
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Also aus Originalname.pdf wird 2022-05-28__Originalname.pdf?

Bitte mal ein Log hochladen. Danke.
 

SteffenT

Benutzer
Mitglied seit
16. Mrz 2007
Beiträge
53
Punkte für Reaktionen
2
Punkte
14
Morgen Stephan,

genau so macht er es. Hier mal die Logdatei.

-----------------------------------
| ==> installation info <== |
-----------------------------------

synOCR-user: synOCR
synOCR-user is admin: yes
synOCR-version: 1.2.0
Architecture: x86_64
DSM-build: 42661
Device: 916plus (2123370156)
current Profil: Steffen OCR
DB-version: 5
WARNING: Error loading config file: .dockercfg: $HOME is not defined
used image (created): jbarlow83/ocrmypdf:latest (2022-05-29T01:21:48)
used ocr-parameter (raw): -srd -l deu+eng
ocropt_array: -srd -l deu+eng
search prefix:
replace search prefix: yes
renaming syntax: §y-§m-§d_§tag_§tit
Symbol for tag marking: #
Document split pattern:
Date search method: use standard search via RegEx
source for filedate: ocr
ignored dates by search: 2021-02-29;2020-11-31
Docker test: WARNING: Error loading config file: .dockercfg: $HOME is not defined
OK
DSM notify to user: admin
Loglevel: normal
max. count of logfiles: 10
Source directory: /volume2/Daten/PDF Dateien/Scannerdokumente/Scannerdokumente Eingang/
Target directory: /volume2/Daten/PDF Dateien/Scannerdokumente/Scannerdokumente mit OCR/
BackUp directory: /volume2/Daten/PDF Dateien/Scannerdokumente/Scannerdokumente Original/
rotate backupfiles after: (purge backup deactivated)



----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------

PROCESSING: ➜ Testdatei.pdf (Sun May 29 08:31:35 CEST 2022)
temp. target file: /tmp/tmp.gIaKcxPdno/Testdatei.pdf

➜ OCRmyPDF-LOG:
WARNING: Error loading config file: .dockercfg: $HOME is not defined
reading file from standard input
1 skipping all processing on this page
Postprocessing...
Optimize ratio: 1.00 savings: 0.0%
Output sent to stdout
← OCRmyPDF-LOG-END

target file (OK): /tmp/tmp.gIaKcxPdno/Testdatei.pdf

➜ search tags and date:
no tags defined
Using date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
Using date format: 2 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
Using date format: 3 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
Date not found in OCR text - use file date:
day: 28
month:05
year: 2022
➜ renaming:
apply renaming syntax ➜ 2022-05-28__Testdatei
➜ edit metadata FAILED! - exiftool not found! Please install it over cphub.net if you need it
target file: 2022-05-28__Testdatei.pdf
➜ Adapt file date (Source: Source file [OCR selected but not found])
➜ move source file to: /volume2/Daten/PDF Dateien/Scannerdokumente/Scannerdokumente Original/Testdatei.pdf
./synOCR.sh: line 1779: /dev/ttyS1: Permission denied
ERROR at line 1779: echo 2 > /dev/ttyS1
INFO: (PushBullet-TOKEN not set)

Stats:
➜ runtime last file: 00:00:15
➜ pagecount last file: 1
➜ file count profile : (profile Steffen OCR) - 11 PDF's / 11 Pages processed up to now
➜ file count total: 11 PDF's / 11 Pages processed up to now

➜ delete tmp-files …
➜ purge logfiles:
➜ purge backup deactivated



-----------------------------------
| ==> synOCR ENDE <== |

In der Logdatei steht bei Rename Syntax §y-§m-§d_§tag_§tit und der Konfiguration nur §tit. Siehe Screenshot.

1653806479905.jpeg

Gruß Steffen
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Aber in der Renamesyntax steht: §y-§m-§d_§tag_§tit

Kann es sein, dass du noch ein 2. Profil für dieselbe Ordnerstruktur parallel aktiv hast? Das aus dem Log heißt Steffen OCR. Vielleicht gibt es ja noch das Profil default mit denselben Einstellungen.
 

SteffenT

Benutzer
Mitglied seit
16. Mrz 2007
Beiträge
53
Punkte für Reaktionen
2
Punkte
14
In der Tat. Ich habe das Profil Steffen zweimal gehabt. Einmal gelöscht und jetzt geht es. Ich danke Dir.

Schönen Sonntag noch.
 
  • Like
Reaktionen: geimist

lil-ac

Benutzer
Mitglied seit
14. Feb 2013
Beiträge
39
Punkte für Reaktionen
0
Punkte
6
Hallo, kurze Frage kann man irgendwie eine Mail Adresse mit einbinden? So das die Dokumente dort auch gesichert bzw. eingelesen werden?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Nein, eine Mailfunktion ist nicht implementiert.

Was verstehst du unter:
So das die Dokumente dort auch … eingelesen werden?
 

lil-ac

Benutzer
Mitglied seit
14. Feb 2013
Beiträge
39
Punkte für Reaktionen
0
Punkte
6
Z.b ich bekomme eine Mail mit einer PDF (Rechnung) und die wird von synocr wie ein Scan beachtet und dem entsprechend verarbeitet.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Das ist schon sehr speziell. Aber mit etwas Skripterei sollte man sich eine individuelle Lösung basteln können. Als offizielles Feature sehe ich da zu wenig Bedarf … 🤷‍♂️ :(
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Meine lieben Freunde der texterkannten PDFs:

Wie schon angekündigt, gibt es jetzt wieder etwas zum Spielen / Testen:

Es gibt so manche Features, die schon sehr lange gewünscht wurden, aber in der Shell nur schwer umsetzbar waren. Eins davon war die Erkennung von alphanumerischen Datumsangaben. @Gthorsten hat sich dem jetzt angenommen und arbeitet daran, das Ganze in Python umzusetzen (mehr dazu unten). Und wenn man einmal Python mit nutzt, stehen einem noch andere Türchen offen (zumal ab DSM7 Python3 nativ im DSM vorhanden ist).

Das Ganze findet ihr hier als Prerelease für die kommende Version 1.3.0 auf meinem Server (für DSM6 & DSM7): https://geimist.eu/synOCR/

➜ SPK DSM6 BETA
➜ SPK DSM7 BETA

Hier erst mal die Featureliste:​


BUGFIXES:Abfangen einer Fehlermeldung, wenn es keine zu bereinigenden Docker-Images gibt
Die Zählung der zu löschenden Protokoll- und Backupdateien war in bestimmten Situationen nicht korrekt
VERBESSERUNGEN:[YAML-Regeln] wenn der Wert für condition nicht gesetzt ist - Fallback auf any
NEUES:🔥Überwachung des Eingabeordners eingbaut
  • das Paket inotify-tools muss manuell von HIER installiert werden
    alternativ: synocommunity im Paketzentrum
  • Um die Funktion zu verwenden, ist synOCR mit dem Parameter start im DSM-Aufgabenplaner aufzurufen:
    /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh start
  • ein pulsierendes Icon auf der synOCR Startseite (grüner Haken / blaue Sanduhr) symbolisieren das aktive Monitoring
  • bei einer Änderung der Quellordner ( (de-)aktiveren eines Profils, Ändern eines Quellpfades, Löschen / Neuerstellen eines Profils) muss synOCR mit dem Parameter start wie oben gezeigt, aufgerufen werden, damit die Änderungen wirksam werden
🔥neue Python-basierte Datumssuche implementiert, die auch ausgeschriebene Monate findet (@Gthorsten)
  • erfordert unter DSM6 ein installiertes Python3
  • die Funktion befindet sich noch in Entwicklung‼️
  • derzeit werden bei einem alphanumerischen Datum die Tage noch nicht ausgewertet (ist immer der 1.)
  • als Fallback greift die bisherige RegEx-Suche
  • RegEx oder Python Auswahl in der GUI möglich
🔥Unterstützung von Trennblättern
  • Das Erkennungswort kann in der GUI konfiguriert werden
  • erfordert unter DSM6 ein installiertes Python3
  • Ein Beispieltrennblatt zum Ausdrucken, findet ihr HIER
  • Trennblätter werden verworfen‼️
🔥Bilder im Quellordner können automatisch konvertiert werden
  • erfordert unter DSM6 ein installiertes Python3
  • (De-)Aktivierung in der GUI möglich
  • derzeit mögliche Formate: jpeg jpg tiff png
    (sollte was fehlen, bitte melden)
Option zur Reduzierung mehrerer Leerzeichen auf ein einziges
  • das kann für RegEx-Suchen hilfreich sein, wenn die erkannte Anzahl schwankt oder unbekannt ist.
  • (De-)Aktivierung in der GUI möglich
die Anzahl der Seiten wird nun mit Python ermittelt
  • erfordert unter DSM6 ein installiertes Python3
  • Exiftool und pdfinfo werden obsolet
die Metadaten werden jetzt mit Python gesetzt
  • erfordert unter DSM6 ein installiertes Python3
  • Exiftool wird obsolet
gesetzt werden:
  • Autor(die Info stammt aus den OCR-Optionen, sofern gesetzt [--author john doe])
  • Erstellzeitpunkt (je nachdem, welcher Quell-Wert definiert wurde: OCR Dateidatum jetzt)
  • gefundene keywords
die Konvertierung von YAML nach JSON erfolgt nicht mehr mit dem binären yq, sondern mit Python
  • das mitgelieferte yq wird obsolet
Protokollierung gelöschter Backupdateien in Loglevel 2
[GUI] Benachrichtigung über Aktualisierungen auf der Hauptseite (weil cphub.net immer noch nicht funktioniert 😭)
[GUI] Unterstützung für Französisch (automatisch übersetzt)
  • hier gibt es bestimmt Korrekturbedarf :)

Die Routinen für die Trennblätter und die Bildkonvertierung erforderten einen ziemlichen Umbau des bisherigen Programmablaufs. Im Überblick heißt das: 34 geänderte Dateien, 3103 hinzugefügte / geänderte Zeilen, 2012 gelöschte Zeilen. Deshalb bitte ich um besonderes Augenmerk auf die korrekte Funktionsweise von Präfix und Suffix Einstellungen.

Vielen Dank fürs Testen und euer Feedback 🤗


MACHT VORSICHTSHALBER BITTE VORHER EIN BACKUP VON SYNOCR
VIA HYPERBACKUP ODER INDEM IHR DIE DB HERUNTERLADET​
 
Zuletzt bearbeitet:

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
@geimist Ich habe das neueste Beta-Paket installiert und kann seitdem die Profile nicht mehr nutzen. Sie werden mit dem richtigen Namen angezeigt und auch in der angelegten Reihenfolge, allerdings sind alle Parameter leer. Ein Neustart des NAS und auch der mehrfache Start von synOCR über den Aufgabenplaner haben leider nicht geholfen…
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Eigenartig. Ich sehe da gerade keinen Zusammenhang zu den Änderungen.
  1. Kannst du dir mal bitte die DB in der GUI herunterladen und mir schicken? Danke.
  2. Werden die Profile noch ausgeführt? Wenn nicht, wenigstens im Aufgabenplaner als root?
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
Die Datei habe ich dir zugeschickt, aktuell kann ich weder einen Suchlauf aus der App selbst starten (es wird auch kein Dokument angezeigt, was in den entsprechenden Ordnern liegt und konvertiert werden müsste) und auch der Aufgabenplaner hilft nicht.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat