synOCR synOCR - GUI für OCRmyPDF

Struppix · 03. März 2025

Hallo Stefan,

das geht sowohl in einer wie auch in 2 (mehreren) Regeln.

Hier ein Vorschlag (ungetestet, da schon im Büro):

YAML:

rule_101:
    tagname: 2_§yocr4§mocr§docr_DL_§tagname_RegExEURO
    targetfolder: /volume1/privat/_M
    tagname_RegEx: (?i)(?:(?<=Endsumme\s))(?:\d*[\,\.]\d{2})(?=\s(?:€|EUR|EURO))
    condition: all
    subrules:
    - searchstring: Drescher + Lung
      searchtyp: contains


rule_102:
    tagname: 5_§yocr4§mocr§docr_Therapie³_§tagname_RegExEURO
    targetfolder: /volume1/privat/_M
    tagname_RegEx: (?i)(?:(?Rechnungsbetrag\s))(?:\d*[\,\.]\d{2})(?=\s(?:€|EUR|EURO))
    condition: all
    subrules:
    - searchstring: Osteopathie
      searchtyp: contains

Nicht vergessen
unter "Leerzeichen bereinigte Suche" auf "Leerzeichen bereinigen" schalten.

Wenn Dir die Variante mit dem Komma im Betrag nicht gefällt, können wir dies per Postscript entfernen oder die Euro bzw. Cent Beträge auf 2 Regeln aufteilen.

Gruß Karsten

Stefan_Mav · 03. März 2025

Danke dir, passt so.
In der zweiten Regel ist ein Fehler drin

Code:

(?Rechnungsbetrag\s))
gehört so:
(?<=Rechnungsbetrag\s))

Damit funktioniert es, außer bei der letzten, die ich gerade durch laufen lassen habe.
Da hat er aus 6,72 €
6,72€# (# = Leerzeichen!)
gemacht und hat Leerzeichen und Euro Zeichen vertauscht.

Wenn er das alle 100 mal macht, kann ich mit leben.

Grüße Stefan

Struppix · 03. März 2025

Prima. Ja war halt ein Schreibfehler.

Karsten

Struppix · 03. März 2025

Stefan_Mav schrieb:
Damit funktioniert es, außer bei der letzten, die ich gerade durch laufen lassen habe.

Hallo Stefan,
ersetze mal in beiden Regeln das letzte '\s' durch ein '\D+'. Damit sollte es funktionieren.
Karsten

facetto · 04. März 2025

geimist schrieb:
Es gibt mal wieder etwas Frisches zum Testen: synOCR mit der Version 1.4.99.7

Hi @geimist , kurze RM zur beta: Habe sie heute problemlos installiert und ein paar testsscans gemacht. Lief wie gewohnt völlig geräuschlos. Über die neue logliste der einzelnen Speicherorte freue ich mich sehr, vereinfacht das suchen enorm, danke vielmals dafür!

VG

atzebonn · 04. März 2025

Ach, hab ich doch die Rückmeldung ganz vergessen: Stephan, die Beta läuft bei mir seit Samstag problemlos und bleibt erstmal drauf. Danke Dir.

schlomo · 05. März 2025

Servus @geimist,

habe die neue Beta 1.4.99.7 auch im Einsatz. Bisher ohne Probleme, alles wie gewohnt. Anpassung zur Nachbehandlung von Dateien (z.B. Schärfen) finde ich sehr gut. Die Entfernung von Leerseiten funktioniert bisher auch tadellos, hier mache ich noch einige Tests mit dem Schwellwert.
Ich bin Nutzer eines ScanSnap Scanners, mit den daraus resultierenden und bekannten Problemen hinsichtlich Ordnerüberwachnung. Bisher löse ich das Problem mit dem beschrieben Script und einem temporären Zielverzeichnis, alles ohne Probleme.

Feedback zum Spider "verzögerte Verarbeitung (in Sekunden)"
Die Ergänzung des Sliders (Processing Delay) zum Verzögertem Start der Dateiverarbeitung, verstehe ich so, dass damit versucht wird das Problem zu lösen (kontinuierliches Schreiben des Scanners auf das Laufwerk und damit "Verwirrung" von der Ordnerüberwachung (inotify). Aktuell scheint dieses Feature das Problem nur beim ersten Scan zu lösen, nachdem der Dienst gestartet wurde. Danach scheint die Ordnerüberwachung keine Event zu triggern oder es bleibt eine Reaktion aus. Ordnerüberwachung ist aktiviert und läuft, Anpassungen hinsichtlich temporärem Verzeichnis wurden zurückgerollt. Ich bin mir aber nicht sicher ob es nicht ein Layer-8-Problem ist.

Vielen Dank für die Tolle Arbeit und die kontinuierliche Weiterentwicklung der Lösung.

Beste Grüße
Schlomo

Monacum · 05. März 2025

schlomo schrieb:
Aktuell scheint dieses Feature das Problem nur beim ersten Scan zu lösen, nachdem der Dienst gestartet wurde. Danach scheint die Ordnerüberwachung keine Event zu triggern oder es bleibt eine Reaktion aus.

Die gleiche Erfahrung mache ich hier auch, ich muss das Monitoring dann neu starten.

schlomo · 05. März 2025

Exakt!

geimist · 05. März 2025

Vielen Dank, dass ihr die Beta testet und für euer Feedback.

Ich bin mir bei einem Problem mit mehreren Seiten insofern bewusst, dass die Warteschleife sich auf die 1. Datei konzentriert und beim Erreichen des nötigen Änderungsalters die Verarbeitung (aller Dateien im Quellverzeichnis) ausgeführt wird. Das Problem: zwischenzeitlich hinzugefügte Dateien werden nicht geprüft, weil sie das bereits ausgelöste inotify nicht triggern.
Aber wenn ich euch richtig verstehe, wird die Ordnerüberwachung komplett deaktiviert, sodass später hinzugefügte Dateien keine Verarbeitung auslösen. Richtig?

Ich werde mir das nochmal ansehen.

Monacum · 05. März 2025

Ja genau. Danke Dir!

geimist · 06. März 2025

@schlomo & @Monacum
Könnt ihr mal diese Version probieren und mir bitte Rückmeldung geben?: synOCR_DSM7_local_BETA.spk

Ich habe jetzt die Verzögerung direkt in das Arbeitsskript gebaut und nicht an intotify geknüpft, wie zuvor. Damit sollte das Monitoring nicht mehr beeinträchtigt werden und die Verzögerung findet für jede Datei Anwendung, was vorher auch problematisch hätte werden können.

Vielen Dank.

Monacum · 06. März 2025

Besten Dank Stephan, mit dem neuen Update funktioniert es wieder. Ich habe das mit einer Verzögerung von 10 Sekunden getestet.

geimist · 07. März 2025

Es gibt mal wieder etwas Frisches zum Testen: synOCR mit der Version 1.4.99.8
Sollte es keine Überraschungen mehr geben, wird sie das nächste Release.

BETA DOWNLOAD:

➜ SPK DSM6

➜ SPK DSM7

Was gibt's Neues?

1.4.99.8 [2025-03-07]
VERBESSERUNG:
- [GUI] ein Indikator für den Profilwechsel wurde hinzugefügt
- [shell] die Erkennung / Zählung von Duplikaten in der Zieldatei ist jetzt zuverlässiger
- [shell] Verwendung der nativen DSM-Berechtigungsanpassung
BUGFIXES:
- [shell] ein Problem mit der Verzögerung (delay) in Kombination mit der Ordnerüberwachung
- [shell] das Zählen der Seiten wurde von PyPDF auf pymupdf geändert, um einen Fehler (PDF EOF) abzufangen

Viel Spaß

geimist · 08. März 2025

Sorry an alle, die wahrscheinlich vergeblich den Download probiert hatten: Man sollte die Dateien auch im Freigabeordner ablegen …

DeeKay1 · 09. März 2025

Hi @geimist
1.4.99.8 hab ich gestern erfolgreich bei einigen Dokumenten getestest. Ich bin danach auch direkt auf 1.4.99.9 gewechselt. Seitdem bekomme ich aber in unregelmäßigen Abständen (alle 2-4 Scans) invalide PDF-Dokumente generiert, die nicht geöffnet werden können. Versuche ichs dann mit demselben Source-File nochmal, funktionierts plötzlich. Irgendeine Idee woran das liegt?
Wie gesagt, mit der 1.4.99.8 lief alles noch perfekt.

geimist · 09. März 2025

Das ist nicht schön! Der einzige unterschied von Version .8 zu Version .9 ist ein robusteres Errorhandling. Zwischen diesen Versionen wurden keine manipulierenden Funktionen angefasst. Daher erschließt sich mir der Zusammenhang gerade nicht.

Welches OCRmyPDF Image verwendest du?
Kannst du das mal bitte wechseln?

DeeKay1 · 09. März 2025

Derzeit geimist/ocrmypdf-polyglot_fast:latest. Ich versuchs mal mit einem Wechsel.
Und noch eine andere Frage.
Bei der neuen Option zum Entfernen von Leerseiten. Wird die Erkennung einer leeren Seite vor oder nach der Rotation durchgeführt? Soweit ich mit entsinne, macht ocrmypdf die Rotationerkennung und -drehung. Von daher würde ich darauf tippen, dass erst die Roation und dann die Erkennung auf Leerseite und ggf. deren Entfernung läuft. Wollte das aber nochmal verifizieren.

geimist · 09. März 2025

2. Ja, nach dem OCR (und ggf. einer Drehung), da ja auch auf Text getestet wird.

DeeKay1 · 09. März 2025

Hier mal der Error aus dem Log. Die Synology sagt mir auch, dass der Container unerwartet beendet wurde.
Aktuell ist es sehr strange, da ich die Datei nun gar nicht mehr erfolgreich durch bekomme. Auch nicht mit Image-Wechsel.

Code:

mupdf: cannot find startxref
mupdf: object out of range (49 0 R); xref size 48
mupdf: cannot find startxref
mupdf: object out of range (49 0 R); xref size 48
Traceback (most recent call last):
  File "./includes/blank_page_detection.py", line 93, in <module>
    main()
  File "./includes/blank_page_detection.py", line 78, in main
    emit_new_document(
  File "./includes/blank_page_detection.py", line 61, in emit_new_document
    new_doc.save(os.path.join(out_dir, filename))
  File "/usr/syno/synoman/webman/3rdparty/synOCR/python3_env/lib/python3.8/site-packages/fitz/fitz.py", line 4180, in save
    raise ValueError("cannot save with zero pages")
ValueError: cannot save with zero pages
ERROR at line 2320: python3 ./includes/blank_page_detection.py "${outputtmp}" "${work_tmp_step1%/}/scanrep" --threshold "${blank_page_detection_mainThreshold}" --width-crop "${blank_page_detection_widthCropping}" --height-crop "${blank_page_detection_hightCropping}" --max-filter "${blank_page_detection_interferenceMaxFilter}" --min-filter "${blank_page_detection_interferenceMinFilter}" --black-pixel-ratio "${blank_page_detection_black_pixel_ratio}" ${ignore_text_param}
                ERROR – No valid target PDF file found or file does not exist.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

BETA DOWNLOAD:​

➜ SPK DSM6​

➜ SPK DSM7​

Was gibt's Neues?​

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat

BETA DOWNLOAD:

➜ SPK DSM6

➜ SPK DSM7

Was gibt's Neues?