Auf Thema antworten

Neue Wiki Funktionalität - Wir haben das alte synology-wiki ins Forum übertragen.

Jetzt ist die Hilfe von allen gefragt. Gemeinsam können wir das Wiki auf einen aktuellen Stand bringen. Bitte helfe mit.

Hier gehts zum neuen Wiki

Hier gibt es weitere Informationen zum neuen Wiki

Beitrag

SPK DOWNLOAD: DSM6 | DSM7
bekannte Probleme / Einschränkungen / known issues / limitations:
Geräte mit einer ARM64 / aarch64 CPU werden mit dieser Version aufgrund von Python-Inkompatibilität nicht unterstützt️

Folgende Funktionen erwarten dich mit dem Update auf synOCR Version 1.5.0:
(The complete changelog in english language can be found here.)

neue Funktionen
[SPOILER="entfernen von Leerseiten"]
synOCR kann nun auf Wunsch Leerseiten erkennen und entfernen.
Für eine granulare Steuerung gibt es einen neuen Bereich in der GUI:
[ATTACH=full]105551[/ATTACH]

In der Regel sollte der Hauptregler für die Empfindlichkeit ausreichen.

In den Experteneinstellungen gibt es noch folgende Detaileinstellungen:

Funktion
Beschreibung
Text ignorieren In den Standardeinstellungen wird jede Seite übersprungen, sobald mindestens ein Zeichen gefunden wird. Auf manchen Scans scheint aber Text auf einer leeren Seite von der Rückseite durch, was zu sinnlosem Text führen kann. Mit dieser Einstellung wird ausschließlich eine optische Prüfung durchgeführt.
Beschneiden (Breite) / Beschneiden (Höhe) Beschneidet den Erkennungsbereich um angegebene Prozent in der Breite, um störende Elemente wie Heftklammern oder Lochränder zu ignorieren. Passe die Werte an, wenn deine Dokumente ungewöhnliche Randbereiche haben (0.1 entsprechen 10%). Der Standardwert für die Breite ist 0.1 und für die Höhe 0.05.
max. Filtergröße (Rauschreduzierung) Entfernt kleine Störungen (wie Staub oder leichte Markierungen) durch Filteroperationen. Ein höherer Wert vergrößert den Radius des Filters (weiße Bereiche), um kleine schwarze Störpixel zu entfernen.
min. Filtergröße (Textverstärkung) Ein höherer Wert vergrößert den Radius des Filters (schwarze Bereiche), um Text klarer hervorzuheben. Höhere Werte wirken stärker.
Schwellwert schwarze Pixel Legt den Grenzwert für den Anteil an nicht weißen Pixeln fest, um eine Seite als leer zu klassifizieren. Verringere den Wert, um strengere Kriterien für Leerseiten anzuwenden und erhöhe den Wert, um toleranter gegenüber leeren Seiten zu sein. Standardwert: 0.005

[/SPOILER]
[SPOILER="anpassen der Bildqualität"]

Funktion
Beschreibung
Schwellwert für schwarzweiß Der Schwarzweiß-Modus erzeugt sehr kleine Dateien bei sehr gutem Kontrast und Schärfe. Für Textdokumente ohne wichtige Grafiken ist das ideal.
Der Schwellenwert bestimmt, ab welcher Helligkeit (0-255) ein Pixel als weiß interpretiert wird. Du kannst diesen Wert anpassen:
Niedrigerer Wert (z. B. 20):
Mehr Pixel werden schwarz
Höherer Wert (z. B. 160):
Mehr Pixel werden weiß
Empfohlener Wert: 40
deaktiviert ➜ Die Schwarzweiß-Konvertierung ist ausgeschaltet.
DPI Anpassung Die DPI Zahl muss bei Farbanpassungen definiert werden.
Wird kein Wert definiert, wird bei Farbanpassungen 300 DPI verwendet.
Ist die DPI Anpassung definiert, werden alle Dokumente entsprechend angepasst.
deaktiviert ➜ Die manuelle DPI Anpassung ist ausgeschaltet.
Kontrast Anpassung Durch die Anpassung des Kontrasts können undeutliche Scans verbessert werden.
deaktiviert ➜ Die Kontrast Anpassung ist ausgeschaltet.
Schärfe Anpassung Durch die Anpassung der Schärfe können undeutliche Scans verbessert werden.
deaktiviert ➜ Die Schärfe Anpassung ist ausgeschaltet.

[/SPOILER]
[SPOILER="Wartezeit für inotify-inkompatible Scanner"]
Besonders bei CANON und ScanSnap Scannern ist das Verhalten zu beobachten, dass jede Seite einzeln auf die Netzwerkfreigabe des NAS gespeichert wird und für jede weitere Seite die bestehende PDF-Datei erneut geöffnet und geschlossen wird. Das triggert die Ordnerüberwachung Inotify (event: close_write) oder kann mit einem automatischen Zeitplan kollidieren.

Für diesen Zweck bietet synOCR nun ein Offset, d.h. ein Zeitversatz in Sekunden, bis eine Datei verarbeitet wurde.
Einstellbar ist ein Bereich von 0-120 Sekunden.

[ATTACH=full]105548[/ATTACH]

[/SPOILER]
[SPOILER="Datei Log"]
Wenn die Protokollierung aktiviert ist, wird nun die Datei file_processing.log im Log-Ordner abgelegt, um einen schnellen Überblick über die Zieldateien zu erhalten.
Jede Quelldatei erhält einen Eintrag mit Zeitstempel und dem Vermerk unsuccessful. Wurde die Datei erfolgreich verarbeitet, wird unsuccessful durch den Pfad zur Zieldatei ersetzt. Damit lässt sich schnell nachvollziehen, ob alle Dateien wie gewünscht verarbeitet wurden und in welches Zielverzeichnis sie einsortiert wurden.

[/SPOILER]
[SPOILER="Originaldateien beibehalten"]
Mit dem neuen OCR-Parameter --keep_hash können nun die Quelldateien beibehalten werden.
Hierbei wird die Quelldatei für die Klassifizierung nur temporär verarbeitet und durchsucht, die Zieldatei ist aber letztendlich identisch mit der Quelldatei.

[ATTACH=full]105549[/ATTACH]

[/SPOILER]
[SPOILER="jede Seite trennen"]
Es gibt Szenarien, wo ein Quelldokument bei jeder Seite aufgetrennt werden soll, ohne das jedes Mal ein Trennblatt verwendet werden soll. Dafür gibt es jetzt eine eigene Option in der GUI:

[ATTACH=full]105550[/ATTACH]

[/SPOILER]
[SPOILER="dynamische Pfade per RegEx"][/SPOILER][SPOILER="dynamische Pfade per RegEx"]

Der Key dirname_RegEx dient als Äquivalent zu tagname_RegEx, aber für den Pfad. Wie in diesem Beispiel gezeigt, kann der User damit dynamische Zielordner aufgrund eines RegEx definieren:

[CODE=yaml]rule_subdir:
tagname:
targetfolder: /myPath/§dirname_RegEx
dirname_RegEx: W2[56]-[0-9]{4}
subrules:
- searchstring: W2[56]-[0-9]{4}
isRegEx: true[/CODE]

[/SPOILER]

Verbesserungen
[SPOILER="Details"]
- [GUI] deutlich verbesserte GUI-Geschwindigkeit
- [GUI] duplizierte oder neu erstellte Profile werden sofort geladen / ausgewählt
- [shell] alle nicht alphanumerischen Zeichen im Zieldateinamen werden auf eins reduziert (issue #58)
- [GUI] wo möglich, wurden Textfelder und Optionsfelder durch Schieberegler und Schalter ersetzt
- [GUI] es gibt nun einen optischen Indikator, der einen Profilwechsel anzeigt (der redundante Button wurde entfernt)
- [shell] die RegEx D-M-Y, D.M.Y und D/M/Y in `search_all_numeric_dates` wurden geändert, um die Suche nach 2- und 4-stelligen Jahreszahlen zu ermöglichen. (#56 thx @dklinger)
- [shell] Bump apprise library to 1.9.2
- [GUI] Bump Bootstrap framework to 5.3.3 (thx [USER=8120]@Tommes[/USER])
- [GUI] Bump jQuery to 3.7.1 (thx [USER=8120]@Tommes[/USER])
- [GUI] ungültige Quellverzeichnisse wurden in der GUI angezeigt
- [shell] update `find_dates.py` von Version v0.4 ➜ v0.6 (thx [USER=118999]@Gthorsten[/USER])
search_alpha_numeric_dates()
-change regex after user hint
search_alpha_numeric_dates()
- Optimierung der Suche nach kurzen Daten (jun., Apr. …)
- Bugfix Regex mit Leerzeichen nach Monat
- Protokollierung verbessert
- [shell] die Erkennung / Zählung von Duplikaten in der Zieldatei ist jetzt zuverlässiger
- [shell] Verwendung der nativen DSM-Berechtigungsanpassung
- [shell] Verbesserter Schutz der Quelldatei im Falle eines Fehlers
[/SPOILER]

Bugfixe
[SPOILER="Details"][/SPOILER][SPOILER="Details"]
- [shell] Such-Präfix und Such-Suffix wurden aus dem gesamten Dateinamen entfernt
- [shell] Dateinamen, die doppelte Anführungszeichen enthalten, führten zu einem Fehler
- [shell] Bugfix für Dateinamen mit einer Tilde
- [shell] update find_dates.py
Fehlerbehebung für Daten wie 15.6.2023
add language = de to dateparser (thx @dklinger)
- [shell] Fehlermeldung behoben `warning: ./synOCR.sh: line 780: command substitution: ignored null byte in input`
- [shell] fixing some minor bugs
- [shell] das Zählen der Seiten wurde von PyPDF auf pymupdf geändert, um einen Fehler (PDF EOF) abzufangen
[/SPOILER]

<blockquote data-quote="geimist" data-source="post: 1237413" data-attributes="member: 25500"><h2><img class="smilie smilie--emoji" alt="📦" src="/img/emojis/1f4e6.png" title="Paket&nbsp; &nbsp; :package:" data-shortname=":package:" loading="lazy" width="64" height="64" /> SPK DOWNLOAD: <a href="https://geimist.eu/synOCR/updateserver.php?file=synOCR_DSM6_v1.5.0.spk&amp;version=download" target="_blank">DSM6</a> |&nbsp; <a href="https://geimist.eu/synOCR/updateserver.php?file=synOCR_DSM7_v1.5.0.spk&amp;version=download" target="_blank">DSM7</a></h2><h3><img class="smilie smilie--emoji" alt="⚠️" src="/img/emojis/26a0.png" title="Warnung&nbsp; &nbsp; :warning:" data-shortname=":warning:" loading="lazy" width="64" height="64" /> bekannte Probleme / Einschränkungen / known issues / limitations:</h3>
Geräte mit einer ARM64 / aarch64 CPU werden mit dieser Version aufgrund von <a href="https://github.com/geimist/synOCR/issues/61" target="_blank">Python-Inkompatibilität</a> nicht unterstützt<img class="smilie smilie--emoji" alt="❗" src="/img/emojis/2757.png" title="Ausrufezeichen&nbsp; &nbsp; :exclamation:" data-shortname=":exclamation:" loading="lazy" width="64" height="64" />️<h3>Folgende Funktionen erwarten dich mit dem Update auf synOCR Version 1.5.0:</h3>(<a href="https://github.com/geimist/synOCR/blob/1.5.x_release/PKG_DSM7/CHANGELOG_CURRENT_RELEASE" target="_blank">The complete changelog in english language can be found here.</a>)<hr /><h3><img class="smilie smilie--emoji" alt="🔥" src="/img/emojis/1f525.png" title="Feuer&nbsp; &nbsp; :fire:" data-shortname=":fire:" loading="lazy" width="64" height="64" /> neue Funktionen</h3>[SPOILER=&quot;entfernen von Leerseiten&quot;]synOCR kann nun auf Wunsch Leerseiten erkennen und entfernen.Für eine granulare Steuerung gibt es einen neuen Bereich in der GUI:[ATTACH=full]105551[/ATTACH]In der Regel sollte der Hauptregler für die Empfindlichkeit ausreichen.In den Experteneinstellungen gibt es noch folgende Detaileinstellungen:&nbsp;<table style='width: 100%'><tr><td style='width: 32.2188%'>Funktion
</td><td style='width: 67.6867%'>Beschreibung
</td></tr><tr><td style='width: 32.2188%'><code class="bbCodeInline">Text ignorieren</code></td><td style='width: 67.6867%'>In den Standardeinstellungen wird jede Seite übersprungen, sobald mindestens ein Zeichen gefunden wird. Auf manchen Scans scheint aber Text auf einer leeren Seite von der Rückseite durch, was zu sinnlosem Text führen kann. Mit dieser Einstellung wird ausschließlich eine optische Prüfung durchgeführt.</td></tr><tr><td style='width: 32.2188%'><code class="bbCodeInline">Beschneiden (Breite)</code> / <code class="bbCodeInline">Beschneiden (Höhe)</code></td><td style='width: 67.6867%'>Beschneidet den Erkennungsbereich um angegebene Prozent in der Breite, um störende Elemente wie Heftklammern oder Lochränder zu ignorieren. Passe die Werte an, wenn deine Dokumente ungewöhnliche Randbereiche haben (0.1 entsprechen 10%). Der Standardwert für die Breite ist <code class="bbCodeInline">0.1</code> und für die Höhe <code class="bbCodeInline">0.05</code>.</td></tr><tr><td style='width: 32.2188%'><code class="bbCodeInline">max. Filtergröße (Rauschreduzierung)</code></td><td style='width: 67.6867%'>Entfernt kleine Störungen (wie Staub oder leichte Markierungen) durch Filteroperationen. Ein höherer Wert vergrößert den Radius des Filters (weiße Bereiche), um kleine schwarze Störpixel zu entfernen.</td></tr><tr><td style='width: 32.2188%'><code class="bbCodeInline">min. Filtergröße (Textverstärkung)</code></td><td style='width: 67.6867%'>Ein höherer Wert vergrößert den Radius des Filters (schwarze Bereiche), um Text klarer hervorzuheben. Höhere Werte wirken stärker.</td></tr><tr><td style='width: 32.2188%'><code class="bbCodeInline">Schwellwert schwarze Pixel</code></td><td style='width: 67.6867%'>Legt den Grenzwert für den Anteil an nicht weißen Pixeln fest, um eine Seite als leer zu klassifizieren. Verringere den Wert, um strengere Kriterien für Leerseiten anzuwenden und erhöhe den Wert, um toleranter gegenüber leeren Seiten zu sein. Standardwert: <code class="bbCodeInline">0.005</code></td></tr></table>[/SPOILER][SPOILER=&quot;anpassen der Bildqualität&quot;]<img src="https://github.com/user-attachments/assets/2ee5b21c-2087-4adc-8d6f-b25c3b4fbcf4" alt="" class="fr-fic fr-dii fr-draggable " data-size="1366x646" style="width: 623px" /><table style='width: 100%'><tr><td style='width: 32.2779%'>Funktion
</td><td style='width: 67.6276%'>Beschreibung</td></tr><tr><td style='width: 32.2779%'><code class="bbCodeInline">Schwellwert für schwarzweiß</code></td><td style='width: 67.6276%'>Der Schwarzweiß-Modus erzeugt sehr kleine Dateien bei sehr gutem Kontrast und Schärfe. Für Textdokumente ohne wichtige Grafiken ist das ideal. 
Der Schwellenwert bestimmt, ab welcher Helligkeit (0-255) ein Pixel als weiß interpretiert wird. Du kannst diesen Wert anpassen: 
<ul>
<li data-xf-list-type="ul">Niedrigerer Wert (z. B. <code class="bbCodeInline">20</code>): 
Mehr Pixel werden schwarz</li>
<li data-xf-list-type="ul">Höherer Wert (z. B. <code class="bbCodeInline">160</code>): 
Mehr Pixel werden weiß</li>
</ul>
Empfohlener Wert: <code class="bbCodeInline">40</code> 
<code class="bbCodeInline">deaktiviert</code> ➜ Die Schwarzweiß-Konvertierung ist ausgeschaltet.</td></tr><tr><td style='width: 32.2779%'><code class="bbCodeInline">DPI Anpassung</code></td><td>Die DPI Zahl muss bei Farbanpassungen definiert werden. 
Wird kein Wert definiert, wird bei Farbanpassungen 300 DPI verwendet. 
Ist die DPI Anpassung definiert, werden alle Dokumente entsprechend angepasst. 
<code class="bbCodeInline">deaktiviert</code> ➜ Die manuelle DPI Anpassung ist ausgeschaltet.</td></tr><tr><td style='width: 32.2779%'><code class="bbCodeInline">Kontrast Anpassung</code></td><td>Durch die Anpassung des Kontrasts können undeutliche Scans verbessert werden. 
<code class="bbCodeInline">deaktiviert</code> ➜ Die Kontrast Anpassung ist ausgeschaltet.</td></tr><tr><td style='width: 32.2779%'><code class="bbCodeInline">Schärfe Anpassung</code></td><td>Durch die Anpassung der Schärfe können undeutliche Scans verbessert werden. 
<code class="bbCodeInline">deaktiviert</code> ➜ Die Schärfe Anpassung ist ausgeschaltet.</td></tr></table>[/SPOILER][SPOILER=&quot;Wartezeit für inotify-inkompatible Scanner&quot;]Besonders bei CANON und ScanSnap Scannern ist das Verhalten zu beobachten, dass jede Seite einzeln auf die Netzwerkfreigabe des NAS gespeichert wird und für jede weitere Seite die bestehende PDF-Datei erneut geöffnet und geschlossen wird. Das triggert die Ordnerüberwachung Inotify (event: <code class="bbCodeInline">close_write</code>) oder kann mit einem automatischen Zeitplan kollidieren.&nbsp;Für diesen Zweck bietet synOCR nun ein Offset, d.h. ein Zeitversatz in Sekunden, bis eine Datei verarbeitet wurde.Einstellbar ist ein Bereich von 0-120 Sekunden.[ATTACH=full]105548[/ATTACH][/SPOILER][SPOILER=&quot;Datei Log&quot;]Wenn die Protokollierung aktiviert ist, wird nun die Datei <code class="bbCodeInline">file_processing.log</code> im Log-Ordner abgelegt, um einen schnellen Überblick über die Zieldateien zu erhalten.Jede Quelldatei erhält einen Eintrag mit Zeitstempel und dem Vermerk <code class="bbCodeInline">unsuccessful</code>. Wurde die Datei erfolgreich verarbeitet, wird <code class="bbCodeInline">unsuccessful</code> durch den Pfad zur Zieldatei ersetzt. Damit lässt sich schnell nachvollziehen, ob alle Dateien wie gewünscht verarbeitet wurden und in welches Zielverzeichnis sie einsortiert wurden.[/SPOILER][SPOILER=&quot;Originaldateien beibehalten&quot;]Mit dem neuen OCR-Parameter <code class="bbCodeInline">--keep_hash</code> können nun die Quelldateien beibehalten werden.Hierbei wird die Quelldatei für die Klassifizierung nur temporär verarbeitet und durchsucht, die Zieldatei ist aber letztendlich identisch mit der Quelldatei.[ATTACH=full]105549[/ATTACH][/SPOILER][SPOILER=&quot;jede Seite trennen&quot;]Es gibt Szenarien, wo ein Quelldokument bei jeder Seite aufgetrennt werden soll, ohne das jedes Mal ein Trennblatt verwendet werden soll. Dafür gibt es jetzt eine eigene Option in der GUI:[ATTACH=full]105550[/ATTACH][/SPOILER][SPOILER=&quot;dynamische Pfade per RegEx&quot;][/SPOILER][SPOILER=&quot;dynamische Pfade per RegEx&quot;]Der Key <code class="bbCodeInline">dirname_RegEx</code> dient als Äquivalent zu <code class="bbCodeInline">tagname_RegEx</code>, aber für den Pfad. Wie in diesem Beispiel gezeigt, kann der User damit dynamische Zielordner aufgrund eines RegEx definieren:&nbsp;[CODE=yaml]rule_subdir:&nbsp; &nbsp; tagname:&nbsp; &nbsp; targetfolder: /myPath/§dirname_RegEx&nbsp; &nbsp; dirname_RegEx: W2[56]-[0-9]{4}&nbsp; &nbsp; subrules:&nbsp; &nbsp; - searchstring: W2[56]-[0-9]{4}&nbsp; &nbsp; &nbsp; isRegEx: true[/CODE][/SPOILER]<hr /><h3><img class="smilie smilie--emoji" alt="💎" src="/img/emojis/1f48e.png" title="Edelstein&nbsp; &nbsp; :gem:" data-shortname=":gem:" loading="lazy" width="64" height="64" /> Verbesserungen</h3>[SPOILER=&quot;Details&quot;]&nbsp;- [GUI]&nbsp; &nbsp; deutlich verbesserte GUI-Geschwindigkeit&nbsp;- [GUI]&nbsp; &nbsp; duplizierte oder neu erstellte Profile werden sofort geladen / ausgewählt&nbsp;- [shell]&nbsp; alle nicht alphanumerischen Zeichen im Zieldateinamen werden auf eins reduziert (issue #58)&nbsp;- [GUI]&nbsp; &nbsp; wo möglich, wurden Textfelder und Optionsfelder durch Schieberegler und Schalter ersetzt&nbsp;- [GUI]&nbsp; &nbsp; es gibt nun einen optischen Indikator, der einen Profilwechsel anzeigt (der redundante Button wurde entfernt)&nbsp;- [shell]&nbsp; die RegEx D-M-Y, D.M.Y und D/M/Y in `search_all_numeric_dates` wurden geändert, um die Suche nach 2- und 4-stelligen Jahreszahlen zu ermöglichen. (#56 thx @dklinger)&nbsp;- [shell]&nbsp; Bump apprise library to 1.9.2&nbsp;- [GUI]&nbsp; &nbsp; Bump Bootstrap framework to 5.3.3 (thx [USER=8120]@Tommes[/USER])&nbsp;- [GUI]&nbsp; &nbsp; Bump jQuery to 3.7.1 (thx [USER=8120]@Tommes[/USER])&nbsp;- [GUI]&nbsp; &nbsp; ungültige Quellverzeichnisse wurden in der GUI angezeigt&nbsp;- [shell]&nbsp; update `find_dates.py` von Version v0.4 ➜ v0.6 (thx [USER=118999]@Gthorsten[/USER])&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; search_alpha_numeric_dates()&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; -change regex after user hint&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; search_alpha_numeric_dates()&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; - Optimierung der Suche nach kurzen Daten (jun., Apr. …)&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; - Bugfix Regex mit Leerzeichen nach Monat&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; - Protokollierung verbessert- [shell] die Erkennung / Zählung von Duplikaten in der Zieldatei ist jetzt zuverlässiger- [shell] Verwendung der nativen DSM-Berechtigungsanpassung- [shell] Verbesserter Schutz der Quelldatei im Falle eines Fehlers[/SPOILER]<hr /><h3><img class="smilie smilie--emoji" alt="🛠️" src="/img/emojis/1f6e0.png" title="Hammer und Schraubenschlüssel&nbsp; &nbsp; :tools:" data-shortname=":tools:" loading="lazy" width="64" height="64" /> Bugfixe</h3>[SPOILER=&quot;Details&quot;][/SPOILER][SPOILER=&quot;Details&quot;]&nbsp;- [shell]&nbsp; Such-Präfix und Such-Suffix wurden aus dem gesamten Dateinamen entfernt&nbsp;- [shell]&nbsp; Dateinamen, die doppelte Anführungszeichen enthalten, führten zu einem Fehler&nbsp;- [shell]&nbsp; Bugfix für Dateinamen mit einer Tilde&nbsp;- [shell]&nbsp; update find_dates.py&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Fehlerbehebung für Daten wie 15.6.2023&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; add language = de to dateparser (thx @dklinger)&nbsp;- [shell]&nbsp; Fehlermeldung behoben `warning: ./synOCR.sh: line 780: command substitution: ignored null byte in input`&nbsp;- [shell]&nbsp; fixing some minor bugs- [shell] das Zählen der Seiten wurde von PyPDF auf pymupdf geändert, um einen Fehler (PDF EOF) abzufangen[/SPOILER]</blockquote>

[QUOTE="geimist, post: 1237413, member: 25500"] [HEADING=1]📦 SPK DOWNLOAD: [URL='https://geimist.eu/synOCR/updateserver.php?file=synOCR_DSM6_v1.5.0.spk&version=download']DSM6[/URL] | [URL='https://geimist.eu/synOCR/updateserver.php?file=synOCR_DSM7_v1.5.0.spk&version=download']DSM7[/URL][/HEADING] [HEADING=2]⚠️ bekannte Probleme / Einschränkungen / known issues / limitations:[/HEADING] [INDENT]Geräte mit einer ARM64 / aarch64 CPU werden mit dieser Version aufgrund von [URL='https://github.com/geimist/synOCR/issues/61']Python-Inkompatibilität[/URL] nicht unterstützt❗️[/INDENT] [HEADING=2]Folgende Funktionen erwarten dich mit dem Update auf synOCR Version 1.5.0:[/HEADING] ([URL='https://github.com/geimist/synOCR/blob/1.5.x_release/PKG_DSM7/CHANGELOG_CURRENT_RELEASE']The complete changelog in english language can be found here.[/URL]) [HR][/HR] [HEADING=2]🔥 neue Funktionen[/HEADING] [SPOILER="entfernen von Leerseiten"] synOCR kann nun auf Wunsch Leerseiten erkennen und entfernen. Für eine granulare Steuerung gibt es einen neuen Bereich in der GUI: [ATTACH type="full" width="638px" size="1200x842"]105551[/ATTACH] In der Regel sollte der Hauptregler für die [B][I]Empfindlichkeit[/I][/B] ausreichen. In den [I][B]Experteneinstellungen[/B][/I] gibt es noch folgende Detaileinstellungen: [TABLE width="100%"] [TR] [td width="32.2188%"][CENTER][B]Funktion[/B][/CENTER][/td] [td width="67.6867%"][CENTER][B]Beschreibung[/B][/CENTER][/td] [/TR] [TR] [td width="32.2188%"][ICODE]Text ignorieren[/ICODE][/td][td width="67.6867%"]In den Standardeinstellungen wird jede Seite übersprungen, sobald mindestens ein Zeichen gefunden wird. Auf manchen Scans scheint aber Text auf einer leeren Seite von der Rückseite durch, was zu sinnlosem Text führen kann. Mit dieser Einstellung wird ausschließlich eine optische Prüfung durchgeführt.[/td] [/TR] [TR] [td width="32.2188%"][ICODE]Beschneiden (Breite)[/ICODE] / [ICODE]Beschneiden (Höhe)[/ICODE][/td][td width="67.6867%"]Beschneidet den Erkennungsbereich um angegebene Prozent in der Breite, um störende Elemente wie Heftklammern oder Lochränder zu ignorieren. Passe die Werte an, wenn deine Dokumente ungewöhnliche Randbereiche haben (0.1 entsprechen 10%). Der Standardwert für die Breite ist [ICODE]0.1[/ICODE] und für die Höhe [ICODE]0.05[/ICODE].[/td] [/TR] [TR] [td width="32.2188%"][ICODE]max. Filtergröße (Rauschreduzierung)[/ICODE][/td][td width="67.6867%"]Entfernt kleine Störungen (wie Staub oder leichte Markierungen) durch Filteroperationen. Ein höherer Wert vergrößert den Radius des Filters (weiße Bereiche), um kleine schwarze Störpixel zu entfernen.[/td] [/TR] [TR] [td width="32.2188%"][ICODE]min. Filtergröße (Textverstärkung)[/ICODE][/td][td width="67.6867%"]Ein höherer Wert vergrößert den Radius des Filters (schwarze Bereiche), um Text klarer hervorzuheben. Höhere Werte wirken stärker.[/td] [/TR] [TR] [td width="32.2188%"][ICODE]Schwellwert schwarze Pixel[/ICODE][/td][td width="67.6867%"]Legt den Grenzwert für den Anteil an nicht weißen Pixeln fest, um eine Seite als leer zu klassifizieren. Verringere den Wert, um strengere Kriterien für Leerseiten anzuwenden und erhöhe den Wert, um toleranter gegenüber leeren Seiten zu sein. Standardwert: [ICODE]0.005[/ICODE][/td] [/TR] [/TABLE] [/SPOILER] [SPOILER="anpassen der Bildqualität"] [IMG width="623px" size="1366x646"]https://github.com/user-attachments/assets/2ee5b21c-2087-4adc-8d6f-b25c3b4fbcf4[/IMG] [TABLE width="100%"] [TR] [td width="32.2779%"][CENTER][B]Funktion[/B][/CENTER][/td] [td width="67.6276%"][B]Beschreibung[/B][/td] [/TR] [TR] [td width="32.2779%"][ICODE]Schwellwert für schwarzweiß[/ICODE][/td][td width="67.6276%"]Der Schwarzweiß-Modus erzeugt sehr kleine Dateien bei sehr gutem Kontrast und Schärfe. Für Textdokumente ohne wichtige Grafiken ist das ideal. Der Schwellenwert bestimmt, ab welcher Helligkeit (0-255) ein Pixel als weiß interpretiert wird. Du kannst diesen Wert anpassen: [LIST] [*]Niedrigerer Wert (z. B. [ICODE]20[/ICODE]): Mehr Pixel werden schwarz [*]Höherer Wert (z. B. [ICODE]160[/ICODE]): Mehr Pixel werden weiß [/LIST] Empfohlener Wert: [ICODE]40[/ICODE] [ICODE]deaktiviert[/ICODE] ➜ Die Schwarzweiß-Konvertierung ist ausgeschaltet.[/td] [/TR] [TR] [td width="32.2779%"][ICODE]DPI Anpassung[/ICODE][/td][td]Die DPI Zahl muss bei Farbanpassungen definiert werden. Wird kein Wert definiert, wird bei Farbanpassungen 300 DPI verwendet. Ist die DPI Anpassung definiert, werden alle Dokumente entsprechend angepasst. [ICODE]deaktiviert[/ICODE] ➜ Die manuelle DPI Anpassung ist ausgeschaltet.[/td] [/TR] [TR] [td width="32.2779%"][ICODE]Kontrast Anpassung[/ICODE][/td][td]Durch die Anpassung des Kontrasts können undeutliche Scans verbessert werden. [ICODE]deaktiviert[/ICODE] ➜ Die Kontrast Anpassung ist ausgeschaltet.[/td] [/TR] [TR] [td width="32.2779%"][ICODE]Schärfe Anpassung[/ICODE][/td][td]Durch die Anpassung der Schärfe können undeutliche Scans verbessert werden. [ICODE]deaktiviert[/ICODE] ➜ Die Schärfe Anpassung ist ausgeschaltet.[/td] [/TR] [/TABLE] [/SPOILER] [SPOILER="Wartezeit für inotify-inkompatible Scanner"] Besonders bei CANON und ScanSnap Scannern ist das Verhalten zu beobachten, dass jede Seite einzeln auf die Netzwerkfreigabe des NAS gespeichert wird und für jede weitere Seite die bestehende PDF-Datei erneut geöffnet und geschlossen wird. Das triggert die Ordnerüberwachung Inotify (event: [ICODE]close_write[/ICODE]) oder kann mit einem automatischen Zeitplan kollidieren. Für diesen Zweck bietet synOCR nun ein Offset, d.h. ein Zeitversatz in Sekunden, bis eine Datei verarbeitet wurde. Einstellbar ist ein Bereich von 0-120 Sekunden. [ATTACH type="full" width="622px" alt="offset.png"]105548[/ATTACH] [/SPOILER] [SPOILER="Datei Log"] Wenn die Protokollierung aktiviert ist, wird nun die Datei [ICODE]file_processing.log[/ICODE] im Log-Ordner abgelegt, um einen schnellen Überblick über die Zieldateien zu erhalten. Jede Quelldatei erhält einen Eintrag mit Zeitstempel und dem Vermerk [ICODE]unsuccessful[/ICODE]. Wurde die Datei erfolgreich verarbeitet, wird [ICODE]unsuccessful[/ICODE] durch den Pfad zur Zieldatei ersetzt. Damit lässt sich schnell nachvollziehen, ob alle Dateien wie gewünscht verarbeitet wurden und in welches Zielverzeichnis sie einsortiert wurden. [/SPOILER] [SPOILER="Originaldateien beibehalten"] Mit dem neuen OCR-Parameter [ICODE]--keep_hash[/ICODE] können nun die Quelldateien beibehalten werden. Hierbei wird die Quelldatei für die Klassifizierung nur temporär verarbeitet und durchsucht, die Zieldatei ist aber letztendlich identisch mit der Quelldatei. [ATTACH type="full" width="600px" alt="keep_hash.png"]105549[/ATTACH] [/SPOILER] [SPOILER="jede Seite trennen"] Es gibt Szenarien, wo ein Quelldokument bei jeder Seite aufgetrennt werden soll, ohne das jedes Mal ein Trennblatt verwendet werden soll. Dafür gibt es jetzt eine eigene Option in der GUI: [ATTACH type="full" width="604px" alt="split_every_page.png"]105550[/ATTACH] [/SPOILER] [FONT=-apple-system][SPOILER="dynamische Pfade per RegEx"][/SPOILER][/FONT][SPOILER="dynamische Pfade per RegEx"] Der Key [ICODE]dirname_RegEx[/ICODE] dient als Äquivalent zu [ICODE]tagname_RegEx[/ICODE], aber für den Pfad. Wie in diesem Beispiel gezeigt, kann der User damit dynamische Zielordner aufgrund eines RegEx definieren: [CODE=yaml]rule_subdir: tagname: targetfolder: /myPath/§dirname_RegEx dirname_RegEx: W2[56]-[0-9]{4} subrules: - searchstring: W2[56]-[0-9]{4} isRegEx: true[/CODE] [/SPOILER] [HR][/HR] [HEADING=2]💎 Verbesserungen[/HEADING] [SPOILER="Details"] - [GUI] deutlich verbesserte GUI-Geschwindigkeit - [GUI] duplizierte oder neu erstellte Profile werden sofort geladen / ausgewählt - [shell] alle nicht alphanumerischen Zeichen im Zieldateinamen werden auf eins reduziert (issue #58) - [GUI] wo möglich, wurden Textfelder und Optionsfelder durch Schieberegler und Schalter ersetzt - [GUI] es gibt nun einen optischen Indikator, der einen Profilwechsel anzeigt (der redundante Button wurde entfernt) - [shell] die RegEx D-M-Y, D.M.Y und D/M/Y in `search_all_numeric_dates` wurden geändert, um die Suche nach 2- und 4-stelligen Jahreszahlen zu ermöglichen. (#56 thx @dklinger) - [shell] Bump apprise library to 1.9.2 - [GUI] Bump Bootstrap framework to 5.3.3 (thx [USER=8120]@Tommes[/USER]) - [GUI] Bump jQuery to 3.7.1 (thx [USER=8120]@Tommes[/USER]) - [GUI] ungültige Quellverzeichnisse wurden in der GUI angezeigt - [shell] update `find_dates.py` von Version v0.4 ➜ v0.6 (thx [USER=118999]@Gthorsten[/USER]) search_alpha_numeric_dates() -change regex after user hint search_alpha_numeric_dates() - Optimierung der Suche nach kurzen Daten (jun., Apr. …) - Bugfix Regex mit Leerzeichen nach Monat - Protokollierung verbessert - [shell] die Erkennung / Zählung von Duplikaten in der Zieldatei ist jetzt zuverlässiger - [shell] Verwendung der nativen DSM-Berechtigungsanpassung - [shell] Verbesserter Schutz der Quelldatei im Falle eines Fehlers [/SPOILER] [HR][/HR] [HEADING=2]🛠️ Bugfixe[/HEADING] [FONT=-apple-system][SPOILER="Details"][/SPOILER][/FONT][SPOILER="Details"] - [shell] Such-Präfix und Such-Suffix wurden aus dem gesamten Dateinamen entfernt - [shell] Dateinamen, die doppelte Anführungszeichen enthalten, führten zu einem Fehler - [shell] Bugfix für Dateinamen mit einer Tilde - [shell] update find_dates.py Fehlerbehebung für Daten wie 15.6.2023 add language = de to dateparser (thx @dklinger) - [shell] Fehlermeldung behoben `warning: ./synOCR.sh: line 780: command substitution: ignored null byte in input` - [shell] fixing some minor bugs - [shell] das Zählen der Seiten wurde von PyPDF auf pymupdf geändert, um einen Fehler (PDF EOF) abzufangen [/SPOILER] [/QUOTE]

Additional post fields

Authentifizierung

NAS-Central - Ihr Partner für NAS Lösungen

Oben Unten

Funktion	Beschreibung
`Text ignorieren`	In den Standardeinstellungen wird jede Seite übersprungen, sobald mindestens ein Zeichen gefunden wird. Auf manchen Scans scheint aber Text auf einer leeren Seite von der Rückseite durch, was zu sinnlosem Text führen kann. Mit dieser Einstellung wird ausschließlich eine optische Prüfung durchgeführt.
`Beschneiden (Breite)` / `Beschneiden (Höhe)`	Beschneidet den Erkennungsbereich um angegebene Prozent in der Breite, um störende Elemente wie Heftklammern oder Lochränder zu ignorieren. Passe die Werte an, wenn deine Dokumente ungewöhnliche Randbereiche haben (0.1 entsprechen 10%). Der Standardwert für die Breite ist `0.1` und für die Höhe `0.05`.
`max. Filtergröße (Rauschreduzierung)`	Entfernt kleine Störungen (wie Staub oder leichte Markierungen) durch Filteroperationen. Ein höherer Wert vergrößert den Radius des Filters (weiße Bereiche), um kleine schwarze Störpixel zu entfernen.
`min. Filtergröße (Textverstärkung)`	Ein höherer Wert vergrößert den Radius des Filters (schwarze Bereiche), um Text klarer hervorzuheben. Höhere Werte wirken stärker.
`Schwellwert schwarze Pixel`	Legt den Grenzwert für den Anteil an nicht weißen Pixeln fest, um eine Seite als leer zu klassifizieren. Verringere den Wert, um strengere Kriterien für Leerseiten anzuwenden und erhöhe den Wert, um toleranter gegenüber leeren Seiten zu sein. Standardwert: `0.005`

Funktion	Beschreibung
`Schwellwert für schwarzweiß`	Der Schwarzweiß-Modus erzeugt sehr kleine Dateien bei sehr gutem Kontrast und Schärfe. Für Textdokumente ohne wichtige Grafiken ist das ideal. Der Schwellenwert bestimmt, ab welcher Helligkeit (0-255) ein Pixel als weiß interpretiert wird. Du kannst diesen Wert anpassen: Niedrigerer Wert (z. B. `20`): Mehr Pixel werden schwarz Höherer Wert (z. B. `160`): Mehr Pixel werden weiß Empfohlener Wert: `40` `deaktiviert` ➜ Die Schwarzweiß-Konvertierung ist ausgeschaltet.
`DPI Anpassung`	Die DPI Zahl muss bei Farbanpassungen definiert werden. Wird kein Wert definiert, wird bei Farbanpassungen 300 DPI verwendet. Ist die DPI Anpassung definiert, werden alle Dokumente entsprechend angepasst. `deaktiviert` ➜ Die manuelle DPI Anpassung ist ausgeschaltet.
`Kontrast Anpassung`	Durch die Anpassung des Kontrasts können undeutliche Scans verbessert werden. `deaktiviert` ➜ Die Kontrast Anpassung ist ausgeschaltet.
`Schärfe Anpassung`	Durch die Anpassung der Schärfe können undeutliche Scans verbessert werden. `deaktiviert` ➜ Die Schärfe Anpassung ist ausgeschaltet.