synOCR synOCR - GUI für OCRmyPDF

rednag · 17. Jun 2020

Ah, ok. War nur etwas verwundert weil die Nachrichten nicht im Postausgang waren.
Mir ist aber danach mitgeteilt worden, daß dies normal sei.

geimist · 17. Jun 2020

rednag schrieb:
… Hat wer eine Idee woran dies liegt?

Deine Rename-Syntax ist leer. Wünscht du keine Umbenennung, dann verwende bitte §tit
Gib bitte Bescheid, ob es geholfen hat.

Den "Fehler" werde ich im nächsten Release abfangen

rednag · 17. Jun 2020

Danke Stephan für Deine schnelle Antwort.

Ich hab das Rename auf "§tit" umgestellt.
Der Scan einer Rechnung wurde nun auch in dem zugehörigen Ordner abgelegt!

Vielen Dank für die tolle Arbeit!

rednag · 18. Jun 2020

So, es nimmt langsam Gestalt an.
Erkannte Rechnungen werden in den zugehörigen Ordner gepackt.
Leider scheint es mit der Benennung noch nicht so zu klappen.
Die Tags sehen so aus:

Rich (BBCode):

Rechnung;Landratsamt;Versicherung;Wohnung;Bestellungen;Gesundheit;Lieferschein;Rechnung=Rechnungen

Das Ergebnis im Rechnungsordner sieht so aus:

Wobei ich die erste Benennung noch nachvollziehn kann.
In der Rechnung kommt das Wort "Rechnung" sowie "Lieferschein" vor.
Bei den beiden anderen aber nur "Rechnung".

Die Umbennung erfolgt nach:

Rich (BBCode):

§tag_§docr_§mocr_§yocr

Also der erkannte Tag, der Monat und das Jahr.

geimist · 18. Jun 2020

Du lässt 2x nach dem Begriff "Rechnung" suchen. Dem entsprechend wird er auch 2x gefunden. Bei dem 2. Fund verwendest du zusätzlich den Kategorieordner "Rechnungen". Willst du den Tag lediglich 1x finden, dann musst du so machen:

Rich (BBCode):

Rechnung=Rechnungen;Landratsamt;Versicherung;Wohnung;Bestellungen;Gesundheit;Lieferschein

Andy+ · 18. Jun 2020

rednag schrieb:
.....

Rich (BBCode):

§tag_§docr_§mocr_§yocr

....

Gibt es da eine Übersicht irgendwo?

geimist · 18. Jun 2020

Im Info-i rechts neben dem Formularfeld in der GUI

DeeKay1 · 20. Jun 2020

Hi geimist,

ich hatte genau das bisher gescripted und bin begeistert, das nun durch eine ordentliche Anwendung mit anständiger GUI ersetzen zu können.
Einen Feature-Request hätte ich aber. Wäre es möglich, zusätzlich zum Such-Präfix, ein Exclusion-Keyword einzuführen?
Ich benenne bisher alle Dokumente, die durch ocrmypdf gelaufen sind, um in "$TitelDesOriginals$_OCR.pdf". Eine Option, Dokumente mit "_OCR" im Quellverzeichnis zu excluden würde mir sehr weiterhelfen.

Danke und Beste Grüße

geimist · 20. Jun 2020

Herzlich willkommen hier im Forum, DeeKay

ist der Eingangsordner bei dir identisch mit dem Ausgabeorder?
Eigentlich kannst du dein Ziel erreichen, indem du mit einem Suchpräfix arbeitest und diesen beim Umbenennen entfernen lässt

Oder habe ich etwas falsch verstanden?

TeXniXo · 21. Jun 2020

Ich denke, er meinte, er hätte gerne Suffix statt Präfix.

DeeKay1 · 21. Jun 2020

Hallo nochmal.
Sorry, ich hab mich falsch ausgedrückt.
Das Suchpräfix macht, sofern ich es richtig verstehe, das genau Gegenteil von dem was ich haben will.

Also Beispiel Suchpräfix:
- Eingabeordner und Ausgabeordner sind gleich
- Suchpräfix ist "Brother_"
- Es kommt eine PDF-Datei von einem Brother-Scanner im Ordner an namens "Brother_1234.pdf"
- synocr erkennt die Datei beim nächsten Lauf, verarbeitet diese und speichert sie mit neuem Namen ohne Präfix. Dadurch wird die Datei beim nächsten Lauf nicht mehr erkannt
Es werden also explizit Dateien auf Basis eines Präfix eingeschlossen und der Rest ignoriert

Mein Workflow ist aktuell anders, hierbei werden explizit alle Dateien eingeschlossen, außer diese haben ein bestimmtes Suffix ("_OCR"):
- Eingabeordner und Ausgabeordner sind gleich
- Es kommt eine PDF-Datei im Ordner an namens "abcdef1234.pdf"
- Beim nächsten Lauf meines Skripts wird die Datei erfasst und geprüft, ob am Ende des Dateinamens "_OCR" hängt. Falls ja, wird diese Datei übersprungen. Falls nein, wird die Datei verarbeitet und in "abcdef1234_OCR.pdf" umbenannt.

Ich weiß natürlich, dass ich mit der Option "--skip-text" auf ein ähnliches Ergebnis kommen würde. Allerdings würden dann alle meine Dateien im Eingabe-/Ausgabeordner, die bereits OCR haben, wieder und wieder verarbeitet werden, da ocrmypdf das skippen (sinnvollerweise) auf Seitenebene und nicht auf Dateiebene macht.
Daher meine Frage ob man zusätzlich zu einem Suchpräfix auch so etwas wie ein ExclusionSUFFIX (Danke @TeXniXo für den Hinweis das ich einen Suffix habe

) einführen könnte. Am bestenen natürlich als Regex, dann kann man sich die ganze Thematik bzgl. Suffix/Präfix auch sparen.

Danke und Beste Grüße.

geimist · 21. Jun 2020

Dann habe ich dich schon richtig verstanden. Als schnelle Lösung bleibt dir nur die Möglichkeit, die Verzeichnisse zu separieren oder du findest eine Möglichkeit, deinen Scanner zu einem Präfix zu überreden.

Ich werde mir deinen Wunsch aber notieren.

DeeKay1 · 21. Jun 2020

Danke, wenn du es notierst bin ich schon glücklich

Mein Scanner kriegt das mit dem Präfix schon hin, aber ich schiebe auch teils Dateien rein, die nicht vom Scanner kommen. Und wenn ich jetzt mit mehreren Ordnern anfange, wird der aktuell ziemlich gute WAF recht schnell nach unten gehn...

Huhie · 26. Jun 2020

Moin,
sagt mal wurde irgendwas geändert? Das Tool hat ganz lange Zeit ohne Probleme
funktioniert.

Ich scanne via HP8740 in mein Netzwerk und lasse alle 10 Minuten per Aufgabenplaner
synocr starten. Seit dem kurzem (ich weiss nicht genau wann) läuft synocr zwar über den Ordner
aber OCR´t und verschiebt die Datei nicht. Das habe ich mit diversen Dateien ausprobiert...

Das Log sagt folgendes:

synOCR-user: root
synOCR-Version: 0.17.1
Architecture: x86_64
DSM-build: 25426
Device: 916plus
current Profil: default
DB-version: 3
used image (created): geimist/ocrmypdf-polyglot:latest (2020-06-23T08:00:11)
used ocr-parameter: -srd -l deu
replace search prefix: no
renaming syntax: §y_§m_§d_§tag
Symbol for tag marking: #
source for filedate: now
Docker Test: OK
Loglevel: extended

----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------

PROCESSING: ? 20200626scan.pdf (Fri Jun 26 15:44:46 CEST 2020)
temp. target file: /tmp/tmp.nO5LygbXX9/20200626scan.pdf

? OCRmyPDF-LOG:
reading file from standard input
Using Tesseract OpenMP thread limit 3
1 page is facing ?, confidence 11.78 - no change
An exception occurred while executing the pipeline
Traceback (most recent call last):
File "/usr/local/lib/python3.8/dist-packages/ocrmypdf/_sync.py", line 356, in run_pipeline
exec_concurrent(context)
File "/usr/local/lib/python3.8/dist-packages/ocrmypdf/_sync.py", line 293, in exec_concurrent
pdf = post_process(pdf, context)
File "/usr/local/lib/python3.8/dist-packages/ocrmypdf/_sync.py", line 234, in post_process
pdf_out = metadata_fixup(pdf_out, context)
File "/usr/local/lib/python3.8/dist-packages/ocrmypdf/_pipeline.py", line 766, in metadata_fixup
del meta['dc:title']
File "/usr/local/lib/python3.8/dist-packages/pikepdf/models/metadata.py", line 389, in __exit__
self._apply_changes()
File "/usr/local/lib/python3.8/dist-packages/pikepdf/models/metadata.py", line 455, in _apply_changes
self._update_docinfo()
File "/usr/local/lib/python3.8/dist-packages/pikepdf/models/metadata.py", line 411, in _update_docinfo
value = converter.docinfo_from_xmp(value)
File "/usr/local/lib/python3.8/dist-packages/pikepdf/models/metadata.py", line 172, in docinfo_from_xmp
return '; '.join(xmp_val)
TypeError: sequence item 0: expected str instance, NoneType found
? OCRmyPDF-LOG-END

?? failed! (target file is empty or not available)

Kann mir jemand helfen?

viele Grüße

Huhie

geimist · 26. Jun 2020

Die Probleme hat das Dockerimage. Kannst du mal zum Test ein anderes auswählen?

Huhie · 26. Jun 2020

Also einfach ein älteres nehmen und nicht latest?

geimist · 26. Jun 2020

Richtig.

Huhie · 26. Jun 2020

Alles klar... getestet...

Mit der geimist/ocrmypdf-polyglot 10.1.0 geht es einwandfrei.

mit der 10.2.0 geht es bei mir nicht...

geimist · 26. Jun 2020

Wenn du magst, kannst du mal mit jbarlow83/ocrmypdf:latest bzw. :v10.2.0 testen
Das sind ja die Quellen für das Polyglot-Image, welches ich bereitstelle. Mich würde interessieren, ob die Images durch meine Spracherweiterung kaputt gegangen sind.

Huhie · 26. Jun 2020

habe getestet... jbarlow83/ocr:latest bzw 10.2.0 -> geht bei mir nicht.

Danke für Deine schnelle Hilfe!

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Kaffeautomat