Auf Thema antworten

Meine lieben Freunde der texterkannten PDFs:


Wie schon angekündigt, gibt es jetzt wieder etwas zum Spielen / Testen:


Es gibt so manche Features, die schon sehr lange gewünscht wurden, aber in der Shell nur schwer umsetzbar waren. Eins davon war die Erkennung von alphanumerischen Datumsangaben. [USER=118999]@Gthorsten[/USER] hat sich dem jetzt angenommen und arbeitet daran, das Ganze in Python umzusetzen (mehr dazu unten). Und wenn man einmal Python mit nutzt, stehen einem noch andere Türchen offen (zumal ab DSM7 Python3 nativ im DSM vorhanden ist).


Das Ganze findet ihr hier als Prerelease für die kommende Version 1.3.0 auf meinem Server (für DSM6 & DSM7): https://geimist.eu/synOCR/


➜ SPK DSM6 BETA

➜ SPK DSM7 BETA


Hier erst mal die Featureliste:


BUGFIXES:Abfangen einer Fehlermeldung, wenn es keine zu bereinigenden Docker-Images gibt

Die Zählung der zu löschenden Protokoll- und Backupdateien war in bestimmten Situationen nicht korrekt


VERBESSERUNGEN:[YAML-Regeln] wenn der Wert für condition nicht gesetzt ist - Fallback auf any


NEUES:🔥Überwachung des Eingabeordners eingbaut

  • das Paket inotify-tools muss manuell von HIER installiert werden
    alternativ: synocommunity im Paketzentrum
  • Um die Funktion zu verwenden, ist synOCR mit dem Parameter start im DSM-Aufgabenplaner aufzurufen:
    /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh start
  • ein pulsierendes Icon auf der synOCR Startseite (grüner Haken / blaue Sanduhr) symbolisieren das aktive Monitoring
  • bei einer Änderung der Quellordner ( (de-)aktiveren eines Profils, Ändern eines Quellpfades, Löschen / Neuerstellen eines Profils) muss synOCR mit dem Parameter start wie oben gezeigt, aufgerufen werden, damit die Änderungen wirksam werden

🔥neue Python-basierte Datumssuche implementiert, die auch ausgeschriebene Monate findet ([USER=118999]@Gthorsten[/USER])

  • erfordert unter DSM6 ein installiertes Python3
  • die Funktion befindet sich noch in Entwicklung‼️
  • derzeit werden bei einem alphanumerischen Datum die Tage noch nicht ausgewertet (ist immer der 1.)
  • als Fallback greift die bisherige RegEx-Suche
  • RegEx oder Python Auswahl in der GUI möglich

🔥Unterstützung von Trennblättern

  • Das Erkennungswort kann in der GUI konfiguriert werden
  • erfordert unter DSM6 ein installiertes Python3
  • Ein Beispieltrennblatt zum Ausdrucken, findet ihr HIER
  • Trennblätter werden verworfen‼️

🔥Bilder im Quellordner können automatisch konvertiert werden

  • erfordert unter DSM6 ein installiertes Python3
  • (De-)Aktivierung in der GUI möglich
  • derzeit mögliche Formate: jpeg jpg tiff png
    (sollte was fehlen, bitte melden)

Option zur Reduzierung mehrerer Leerzeichen auf ein einziges

  • das kann für RegEx-Suchen hilfreich sein, wenn die erkannte Anzahl schwankt oder unbekannt ist.
  • (De-)Aktivierung in der GUI möglich

die Anzahl der Seiten wird nun mit Python ermittelt

  • erfordert unter DSM6 ein installiertes Python3
  • Exiftool und pdfinfo werden obsolet

die Metadaten werden jetzt mit Python gesetzt

  • erfordert unter DSM6 ein installiertes Python3
  • Exiftool wird obsolet
gesetzt werden:
  • Autor(die Info stammt aus den OCR-Optionen, sofern gesetzt [--author john doe])
  • Erstellzeitpunkt (je nachdem, welcher Quell-Wert definiert wurde: OCR Dateidatum jetzt)
  • gefundene keywords

die Konvertierung von YAML nach JSON erfolgt nicht mehr mit dem binären yq, sondern mit Python

  • das mitgelieferte yq wird obsolet

Protokollierung gelöschter Backupdateien in Loglevel 2

[GUI] Benachrichtigung über Aktualisierungen auf der Hauptseite (weil cphub.net immer noch nicht funktioniert 😭)

[GUI] Unterstützung für Französisch (automatisch übersetzt)

  • hier gibt es bestimmt Korrekturbedarf :)


Die Routinen für die Trennblätter und die Bildkonvertierung erforderten einen ziemlichen Umbau des bisherigen Programmablaufs. Im Überblick heißt das: 34 geänderte Dateien, 3103 hinzugefügte / geänderte Zeilen, 2012 gelöschte Zeilen. Deshalb bitte ich um besonderes Augenmerk auf die korrekte Funktionsweise von Präfix und Suffix Einstellungen.


Vielen Dank fürs Testen und euer Feedback 🤗



MACHT VORSICHTSHALBER BITTE VORHER EIN BACKUP VON SYNOCR

VIA HYPERBACKUP ODER INDEM IHR DIE DB HERUNTERLADET


Additional post fields