synOCR synOCR - GUI für OCRmyPDF

rednag

Benutzer
Mitglied seit
08. Nov 2013
Beiträge
3.955
Punkte für Reaktionen
12
Punkte
104
Ah, ok. War nur etwas verwundert weil die Nachrichten nicht im Postausgang waren.
Mir ist aber danach mitgeteilt worden, daß dies normal sei. :p
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.391
Punkte
234
… Hat wer eine Idee woran dies liegt?
Deine Rename-Syntax ist leer. Wünscht du keine Umbenennung, dann verwende bitte §tit
Gib bitte Bescheid, ob es geholfen hat.

Den "Fehler" werde ich im nächsten Release abfangen
 

rednag

Benutzer
Mitglied seit
08. Nov 2013
Beiträge
3.955
Punkte für Reaktionen
12
Punkte
104
Danke Stephan für Deine schnelle Antwort.

Ich hab das Rename auf "§tit" umgestellt.
Der Scan einer Rechnung wurde nun auch in dem zugehörigen Ordner abgelegt!


Vielen Dank für die tolle Arbeit!
 

rednag

Benutzer
Mitglied seit
08. Nov 2013
Beiträge
3.955
Punkte für Reaktionen
12
Punkte
104
So, es nimmt langsam Gestalt an.
Erkannte Rechnungen werden in den zugehörigen Ordner gepackt.
Leider scheint es mit der Benennung noch nicht so zu klappen.
Die Tags sehen so aus:

Rich (BBCode):
Rechnung;Landratsamt;Versicherung;Wohnung;Bestellungen;Gesundheit;Lieferschein;Rechnung=Rechnungen

Das Ergebnis im Rechnungsordner sieht so aus:

o.PNG

Wobei ich die erste Benennung noch nachvollziehn kann.
In der Rechnung kommt das Wort "Rechnung" sowie "Lieferschein" vor.
Bei den beiden anderen aber nur "Rechnung".

Die Umbennung erfolgt nach:

Rich (BBCode):
§tag_§docr_§mocr_§yocr

Also der erkannte Tag, der Monat und das Jahr.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.391
Punkte
234
Du lässt 2x nach dem Begriff "Rechnung" suchen. Dem entsprechend wird er auch 2x gefunden. Bei dem 2. Fund verwendest du zusätzlich den Kategorieordner "Rechnungen". Willst du den Tag lediglich 1x finden, dann musst du so machen:
Rich (BBCode):
Rechnung=Rechnungen;Landratsamt;Versicherung;Wohnung;Bestellungen;Gesundheit;Lieferschein
 

Andy+

Benutzer
Sehr erfahren
Mitglied seit
25. Jan 2016
Beiträge
5.362
Punkte für Reaktionen
483
Punkte
189

DeeKay1

Benutzer
Mitglied seit
20. Jun 2020
Beiträge
100
Punkte für Reaktionen
23
Punkte
24
Hi geimist,

ich hatte genau das bisher gescripted und bin begeistert, das nun durch eine ordentliche Anwendung mit anständiger GUI ersetzen zu können.
Einen Feature-Request hätte ich aber. Wäre es möglich, zusätzlich zum Such-Präfix, ein Exclusion-Keyword einzuführen?
Ich benenne bisher alle Dokumente, die durch ocrmypdf gelaufen sind, um in "$TitelDesOriginals$_OCR.pdf". Eine Option, Dokumente mit "_OCR" im Quellverzeichnis zu excluden würde mir sehr weiterhelfen.

Danke und Beste Grüße
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.391
Punkte
234
Herzlich willkommen hier im Forum, DeeKay :)

ist der Eingangsordner bei dir identisch mit dem Ausgabeorder?
Eigentlich kannst du dein Ziel erreichen, indem du mit einem Suchpräfix arbeitest und diesen beim Umbenennen entfernen lässt

Oder habe ich etwas falsch verstanden?
 

TeXniXo

Benutzer
Mitglied seit
07. Mai 2012
Beiträge
4.948
Punkte für Reaktionen
100
Punkte
134
Ich denke, er meinte, er hätte gerne Suffix statt Präfix.
 

DeeKay1

Benutzer
Mitglied seit
20. Jun 2020
Beiträge
100
Punkte für Reaktionen
23
Punkte
24
Hallo nochmal.
Sorry, ich hab mich falsch ausgedrückt.
Das Suchpräfix macht, sofern ich es richtig verstehe, das genau Gegenteil von dem was ich haben will.

Also Beispiel Suchpräfix:
- Eingabeordner und Ausgabeordner sind gleich
- Suchpräfix ist "Brother_"
- Es kommt eine PDF-Datei von einem Brother-Scanner im Ordner an namens "Brother_1234.pdf"
- synocr erkennt die Datei beim nächsten Lauf, verarbeitet diese und speichert sie mit neuem Namen ohne Präfix. Dadurch wird die Datei beim nächsten Lauf nicht mehr erkannt
Es werden also explizit Dateien auf Basis eines Präfix eingeschlossen und der Rest ignoriert

Mein Workflow ist aktuell anders, hierbei werden explizit alle Dateien eingeschlossen, außer diese haben ein bestimmtes Suffix ("_OCR"):
- Eingabeordner und Ausgabeordner sind gleich
- Es kommt eine PDF-Datei im Ordner an namens "abcdef1234.pdf"
- Beim nächsten Lauf meines Skripts wird die Datei erfasst und geprüft, ob am Ende des Dateinamens "_OCR" hängt. Falls ja, wird diese Datei übersprungen. Falls nein, wird die Datei verarbeitet und in "abcdef1234_OCR.pdf" umbenannt.

Ich weiß natürlich, dass ich mit der Option "--skip-text" auf ein ähnliches Ergebnis kommen würde. Allerdings würden dann alle meine Dateien im Eingabe-/Ausgabeordner, die bereits OCR haben, wieder und wieder verarbeitet werden, da ocrmypdf das skippen (sinnvollerweise) auf Seitenebene und nicht auf Dateiebene macht.
Daher meine Frage ob man zusätzlich zu einem Suchpräfix auch so etwas wie ein ExclusionSUFFIX (Danke @TeXniXo für den Hinweis das ich einen Suffix habe :) ) einführen könnte. Am bestenen natürlich als Regex, dann kann man sich die ganze Thematik bzgl. Suffix/Präfix auch sparen.

Danke und Beste Grüße.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.391
Punkte
234
Dann habe ich dich schon richtig verstanden. Als schnelle Lösung bleibt dir nur die Möglichkeit, die Verzeichnisse zu separieren oder du findest eine Möglichkeit, deinen Scanner zu einem Präfix zu überreden.

Ich werde mir deinen Wunsch aber notieren.
 

DeeKay1

Benutzer
Mitglied seit
20. Jun 2020
Beiträge
100
Punkte für Reaktionen
23
Punkte
24
Danke, wenn du es notierst bin ich schon glücklich :D
Mein Scanner kriegt das mit dem Präfix schon hin, aber ich schiebe auch teils Dateien rein, die nicht vom Scanner kommen. Und wenn ich jetzt mit mehreren Ordnern anfange, wird der aktuell ziemlich gute WAF recht schnell nach unten gehn...
 

Huhie

Benutzer
Mitglied seit
29. Nov 2007
Beiträge
450
Punkte für Reaktionen
8
Punkte
18
Moin,
sagt mal wurde irgendwas geändert? Das Tool hat ganz lange Zeit ohne Probleme
funktioniert.

Ich scanne via HP8740 in mein Netzwerk und lasse alle 10 Minuten per Aufgabenplaner
synocr starten. Seit dem kurzem (ich weiss nicht genau wann) läuft synocr zwar über den Ordner
aber OCR´t und verschiebt die Datei nicht. Das habe ich mit diversen Dateien ausprobiert...

Das Log sagt folgendes:

synOCR-user: root
synOCR-Version: 0.17.1
Architecture: x86_64
DSM-build: 25426
Device: 916plus
current Profil: default
DB-version: 3
used image (created): geimist/ocrmypdf-polyglot:latest (2020-06-23T08:00:11)
used ocr-parameter: -srd -l deu
replace search prefix: no
renaming syntax: §y_§m_§d_§tag
Symbol for tag marking: #
source for filedate: now
Docker Test: OK
Loglevel: extended

----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------

PROCESSING: ? 20200626scan.pdf (Fri Jun 26 15:44:46 CEST 2020)
temp. target file: /tmp/tmp.nO5LygbXX9/20200626scan.pdf

? OCRmyPDF-LOG:
reading file from standard input
Using Tesseract OpenMP thread limit 3
1 page is facing ?, confidence 11.78 - no change
An exception occurred while executing the pipeline
Traceback (most recent call last):
File "/usr/local/lib/python3.8/dist-packages/ocrmypdf/_sync.py", line 356, in run_pipeline
exec_concurrent(context)
File "/usr/local/lib/python3.8/dist-packages/ocrmypdf/_sync.py", line 293, in exec_concurrent
pdf = post_process(pdf, context)
File "/usr/local/lib/python3.8/dist-packages/ocrmypdf/_sync.py", line 234, in post_process
pdf_out = metadata_fixup(pdf_out, context)
File "/usr/local/lib/python3.8/dist-packages/ocrmypdf/_pipeline.py", line 766, in metadata_fixup
del meta['dc:title']
File "/usr/local/lib/python3.8/dist-packages/pikepdf/models/metadata.py", line 389, in __exit__
self._apply_changes()
File "/usr/local/lib/python3.8/dist-packages/pikepdf/models/metadata.py", line 455, in _apply_changes
self._update_docinfo()
File "/usr/local/lib/python3.8/dist-packages/pikepdf/models/metadata.py", line 411, in _update_docinfo
value = converter.docinfo_from_xmp(value)
File "/usr/local/lib/python3.8/dist-packages/pikepdf/models/metadata.py", line 172, in docinfo_from_xmp
return '; '.join(xmp_val)
TypeError: sequence item 0: expected str instance, NoneType found
? OCRmyPDF-LOG-END

?? failed! (target file is empty or not available)

Kann mir jemand helfen?

viele Grüße

Huhie
 

Huhie

Benutzer
Mitglied seit
29. Nov 2007
Beiträge
450
Punkte für Reaktionen
8
Punkte
18
Also einfach ein älteres nehmen und nicht latest?
 

Huhie

Benutzer
Mitglied seit
29. Nov 2007
Beiträge
450
Punkte für Reaktionen
8
Punkte
18
Alles klar... getestet...

Mit der geimist/ocrmypdf-polyglot 10.1.0 geht es einwandfrei.

mit der 10.2.0 geht es bei mir nicht...
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.391
Punkte
234
Wenn du magst, kannst du mal mit jbarlow83/ocrmypdf:latest bzw. :v10.2.0 testen
Das sind ja die Quellen für das Polyglot-Image, welches ich bereitstelle. Mich würde interessieren, ob die Images durch meine Spracherweiterung kaputt gegangen sind.
 

Huhie

Benutzer
Mitglied seit
29. Nov 2007
Beiträge
450
Punkte für Reaktionen
8
Punkte
18
habe getestet... jbarlow83/ocr:latest bzw 10.2.0 -> geht bei mir nicht.

Danke für Deine schnelle Hilfe!
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat