synOCR synOCR - GUI für OCRmyPDF

geimist · 26. Jun 2020

Vielen Dank. Das beruhigt mich insofern, dass der Fehler nicht von mir kommt. Wird sicherlich in einem nächsten Build von ocrmypdf gefixt. Alternativ wäre es bestimmt nicht schlecht, den Fehler (das OCRmyPDF-Log von oben) an jbarlow83 zu melden.

sanshiro · 28. Jun 2020

Hello, looks like all my input file got the fllozing error message, I realize this this is happeningsince a few weeks (maybe due to a recent update)... anyone could help ? Thank you!

PROCESSING: ? conso_001661.pdf (Sun Jun 28 16:24:05 CEST 2020)
temp. target file: /tmp/tmp.iS1rtPVqs3/conso_001661.pdf

? OCRmyPDF-LOG:
reading file from standard input
Using Tesseract OpenMP thread limit 3
1 skipping all processing on this page
An exception occurred while executing the pipeline
Traceback (most recent call last):
File "/usr/local/lib/python3.8/dist-packages/ocrmypdf/_sync.py", line 356, in run_pipeline
exec_concurrent(context)
File "/usr/local/lib/python3.8/dist-packages/ocrmypdf/_sync.py", line 293, in exec_concurrent
pdf = post_process(pdf, context)
File "/usr/local/lib/python3.8/dist-packages/ocrmypdf/_sync.py", line 234, in post_process
pdf_out = metadata_fixup(pdf_out, context)
File "/usr/local/lib/python3.8/dist-packages/ocrmypdf/_pipeline.py", line 766, in metadata_fixup
del meta['dc:title']
File "/usr/local/lib/python3.8/dist-packages/pikepdf/models/metadata.py", line 389, in __exit__
self._apply_changes()
File "/usr/local/lib/python3.8/dist-packages/pikepdf/models/metadata.py", line 455, in _apply_changes
self._update_docinfo()
File "/usr/local/lib/python3.8/dist-packages/pikepdf/models/metadata.py", line 411, in _update_docinfo
value = converter.docinfo_from_xmp(value)
File "/usr/local/lib/python3.8/dist-packages/pikepdf/models/metadata.py", line 172, in docinfo_from_xmp
return '; '.join(xmp_val)
TypeError: sequence item 0: expected str instance, NoneType found
? OCRmyPDF-LOG-END

?? failed! (target file is empty or not available)

geimist · 28. Jun 2020

Hallo sunshiro,

it seems to be the same problem as here.
The reason is an error in the Docker image (the current :latest, or 10.2.0). Please try another version. The next image update will almost certainly fix the problem.

ulli_um · 28. Jun 2020

Hallo zusammen,
ich möchte von Paperless gerne auf SynOCR umsteigen sobald meine 720 angekommen ist.
Dazu habe ich ein paar kurze Fragen:
* Nutzt Ihr für die Dokumentensuche Synology Universal Search oder Synology Drive? Geht beides?
* Ich habe herausgefunden das Universal Search auch Metadaten, wie Title, Keywords, Subjects findet. Eine tolle Visualisierung wäre wenn diese als Labels in Synology Drive auch angezeigt werde. Wisst ihr ob das geht? Ich könnte für SynOCR den Input leifern so das auch entsprechend die Metadaten gesetzt werden. Wäre auch übersichtlicher im Dateinamen.
* Setzt SynOCR das Dateidatum entsprechend des gefundenen Datums im Dateiname oder OCR? Ich suche oft über Dateierstelldatum z.B. nur 2015 Dokumente durchsuchen. (Das unterstützt Universal Search zumindest) Geht das?
* Gibt es in SynOCR so etwas wie Dokumentengruppen (z.B. Versicherung, Wohnung) die man Konfigurieren kann und entsprechend Schlagwörter in der OCR Suche zuordnen kann. Im Ziel wäre ein Dateiname wie folgt cool "<Subject>_<Name>_#<Tag>_#<Tag>_<Datum>.pdf". Wenn die Tags und Subject über Metdaten abgelegt werden und das File entsprechend dem Datum ein Erstelldatum trägt wäre der Filename nurnoch "<Name>.pdf" das wäre der Hammer!

Vielen Dank im Vorfeld und Grüße,
Ulli

geimist · 28. Jun 2020

Hallo Ulli,

durch das OCR verhalten sich die PDF-Dokumente für alle Anwendungen, die sie lesen können, wie Textdateien. Zum Indizieren nutze ich sowohl Documents auf iOS / iPadOS, als auch die systemweite Spotlightsuche auf dem Mac. Synology Universal Search oder Synology Drive geht natürlich genauso
Tags in den PDF-Metadaten lassen sich derzeit nicht editieren. Du kannst natürlich von synOCR bearbeitete Dokumente in den Regeln entsprechende Unterordner (bald beliebige Ordner) einsortieren lassen
Du kannst einstellen, ob das Dateidatum "OCR", "erstellt" oder "jetzt" ist. Für die Umbenennung steht die der entsprechende Tag-, Monats- und Jahr-String zu Verfügung
ich weiß jetzt nicht, wie sich in deinem Beispiel <Subject> von <Tag> unterscheidet?
Das Taggen habe ich ja schon angesprochen. Einige Metadaten sind möglich (z.B. Title und Autor - allerding global und nicht smart …)
Mal sehen, ob ich eine Möglichkeit für die Tags finde. Standardmäßig sind es halt PDF/A-Dokumente, die sich nicht bearbeiten lassen. Möglicherweise sind die Metadaten davon ausgenommen.

ulli_um · 28. Jun 2020

Zu 2&4: Man kann auch bei PDF/A Dokumenten die Metadaten ändern. Die PDF/A Konformität ist danach immer noch gegeben.
Habe Konformität hier getestet: https://www.pdf-online.com/osa/validate.aspx
Die genannten Metadaten habe ich mit folgendem gesetzt "exiftool -overwrite_original -Title="TestTitel" -Subject="TestSub" -sep ", " -Keywords="Rechnung, Steuer" FileName". Danach konnte ich die Werte/Files in Universal Search finden.
zu 3: Ich meine nicht den Dateilnamen. Das Problem ist, wenn ich Files auf die Diskstation kopiere haben die immer das jetztige Erstelldatum nicht das welches z.B. im OCR gefunden wurden. Wie grenzt du die Suche auf einen Zeitraum ein?

geimist · 28. Jun 2020

Das mit dem Exiftool habe ich auch gefunden. Danke für deinen Test. Das klingt gut.

ulli_um schrieb:
Wie grenzt du die Suche auf einen Zeitraum ein?

Also in meinem Workflow reicht mir die Volltextsuche. Sollte ich in Zukunft die Metadaten mit setzen lassen, dann kämen alle Infos hinein, die vorhanden sind.

geimist · 29. Jun 2020

ulli_um schrieb:
Die genannten Metadaten habe ich mit folgendem gesetzt "exiftool -overwrite_original -Title="TestTitel" -Subject="TestSub" -sep ", " -Keywords="Rechnung, Steuer" FileName"

Was würdest du denn in einem Workflow als Quelle für Titel und Subject sehen?

ulli_um · 29. Jun 2020

Mein Workflow wäre wie folgt:
1. Dokument scannen mit Dokumentenbezeichnung z.B Jahresabschluss, Gehalt, Anmeldung,.. -> Titel
Evtl auch Bezeichnung und Dokumentenrubrik -> Subject, titel
2. Ocr des Dokuments
* Inhalt durchsuchen nach Schlagwörtern besser RegEx für Dokumentenrubrik z.B Wohnung, Garantie, Versicherung, Firma ...-> Subject
* Inhalt nach Datum durchsuchen, falls nicht vorhanden Dateierstelldatum -> Date
* Inhalt durchsuchen nach Schlagwörtern besser RegEx für Tags
3. Bilden des Dateinamens "Subject_Titel_#Tags_Date.pdf"
4 Review durch Anwender und Änderung über Dateinamen. File liegt im Review Ordner.
5. Erstellen finales Dokument:
* Setzen des Dateidatums, vermutlich Änderungsdatum der Datei um Suche über datum einzuschränken
* Setzen der Metadaten
* Erstellen Finales Dokument "Subject_Titel.pdf"
6. Einsortieren in Ordner
7. Dokument auffindbar über Datumseinschränkung, Tags, Subjects und ocr text

Was meinst du? Wie is dein Workflow?
Grüße,
Ulli

geimist · 29. Jun 2020

Also dein zweigeteilter Workflow ist derzeit so mit synOCR nicht umsetzbar. Hier fehlt der Reviewschritt. Für mich persönlich ist die ganze Sache mit den Tags ect. auch nicht bedeutend, sondern baut nur auf die Userwünsche auf.

Derzeit läuft es so (RegEx noch nicht in der aktuellen public-Version möglich):

auf alle Dokumente im Input-Ordner wird OCR angewandt
Filterkriterien für Prä- und Suffix (inkl. Ausschlusskriterium) ist demnächst möglich
Es wird nach Tags gesucht
Es wird nach Datum gesucht (der User kann angeben, ob auf der 1. Seite oder auf allen gesucht werden soll)
mit Exiftool werden die Tags und das OCR-Datum in die Metadaten geschrieben
Das Dateidatum wird angepasst (der User definiert die Quelle: OCR, create, oder NOW)
Der Dateiname wird nach Uservorgabe zusammengesetzt
Es werden Hardlinks in die Zielordner gesetzt (gemäß den erfüllten Tagregeln)

Ich habe noch keine Vision zu deinem Subject. Es gibt schon den Titel (der Originaldateiname) und die gefundenen Tags (Aliasse werden möglich sein, d.h. suche SIXT und setze Fahrtkosten)

ulli_um · 29. Jun 2020

Spannend, dann setzt du ja heute schon Metadaten!

Die Subjects find ich praktisch, denn oft möchte ich mir nur bestimmte Rechnungen z.B zur Wohnung ansehen für die Steuer
Daher habe ich Rubriken/Subjects genutzt die erlauben Themengruppen zu filtern.

Wenn du sagst du setzt das Dateidatum. Meinst du damit den Dateinamen oder das Erstell-/Änderungsdatum der Datei?

Wie ist es dir in deinem Workflow möglich Dinge zu korrigieren, wenn z.b falsche tags/datum gesetzt werden? Wie erkennst du neue files und wie änderst du die Daten?

geimist · 29. Jun 2020

ulli_um schrieb:
Spannend, dann setzt du ja heute schon Metadaten!

Das habe ich aufgrund deines Posts gestern mit dem Exiftool probiert. Perl und Exiftool müsste vom User separat installiert werden. Sofern vorhanden, werden die Daten geschrieben. Das sind 3 Zeilen Code (im jetzigen Stadium) …

ulli_um schrieb:
Die Subjects find ich praktisch, denn oft möchte ich mir nur bestimmte Rechnungen z.B zur Wohnung ansehen für die Steuer

Ich verstehe das also so, dass das letztendlich auch nur gefundene Tags sind, die du lediglich als Subjekt als Metadata schreibst. Richtig?
Es ist doch das gleiche Ergebnis, wie wenn man nach den Tag "Rechnung " AND "Wohnung" sucht …

ulli_um schrieb:
Daher habe ich Rubriken/Subjects genutzt die erlauben Themengruppen zu filtern.

Sprichst du hier von einem bestimmten Programm? Wo hast du diese Rubriken?

ulli_um schrieb:
Wenn du sagst du setzt das Dateidatum. Meinst du damit den Dateinamen oder das Erstell-/Änderungsdatum der Datei?

Der User kann beides definieren

ulli_um schrieb:
Wie ist es dir in deinem Workflow möglich Dinge zu korrigieren, wenn z.b falsche tags/datum gesetzt werden?

Wie ich schon schrieb: in meinem Workflow hat das taggen keine große Priorität. Bei mir kommen alle Scans eines Jahres ein einen einzigen Ordner. Namensschema ist YYYY-MM-TT_Tags.pdf. Auf dem Mac suche ich einfach mit Spotlight und finde in der Regel in Sekunden, was ich suche.

ulli_um schrieb:
Wie erkennst du neue files und wie änderst du die Daten?

Mein Scanner erstellt alle Scans mit dem Präfix "SCAN_….pdf". Nur diese Dateien werden von synOCR verarbeitet. Der Ausgabeordner ist bei mir ein anderer.

jomagese · 30. Jun 2020

Hallo Ihr,

Wenn ich jetzt z.B. bei zu suchende Tags das hier eingebe:
§Rechnung;genssicherungspolice;§541-PK-00000=Versicherungen/Vermögenssicherungspolice/Rechnungen/2020

Dann sucht das Programm ja nach einem dieser Punkte: §Rechnung;genssicherungspolice;§541-PK-00000
und ist einer der Punkte vorhanden
dann wird die Datei hier hin kopiert: Versicherungen/Vermögenssicherungspolice/Rechnungen/2020

Gibt es auch eine Möglichkeit dass man sagt:
Es müssen alle 3 Punkte gegeben sein
§Rechnung;genssicherungspolice;§541-PK-00000
und dann wird erst die Datei verschoben

sprich nicht nur oder sondern auch eine und Funktion?

Danke schonmal

Marco

geimist · 30. Jun 2020

jomagese schrieb:
und ist einer der Punkte vorhanden
dann wird die Datei hier hin kopiert: Versicherungen/Vermögenssicherungspolice/Rechnungen/2020

Nein, lediglich wenn §541-PK-00000 gefunden wird, wird verschoben (nur für diesen Tag ist bei dir mittels Gleichheitszeichen eine Kategorie zugewiesen). Du kannst für jeden Tag eine Kategorie zuweisen, aber nicht kombiniert.
Ein erweitertes Regelmanagement mit kombinierten Kriterien kommt mit dem nächsten Release.

jomagese · 30. Jun 2020

Ein erweitertes Regelmanagement mit kombinierten Kriterien kommt mit dem nächsten Release.

Klasse!
Danke schonmal für die ganze arbeit

TeXniXo · 30. Jun 2020

geimist schrieb:
Regelmanagement

Meinst du dieses organize-Tool von tfeldmann?

geimist · 30. Jun 2020

In Anlehnung an dem, bzw. dessen Syntax (im Groben). Der User wird alternativ zu den bisherigen Regeln auch ein YAML-File nutzen können. Es läuft also nicht über die GUI, bisherige Regeln können aber konvertiert werden.
@mamema hat mir da auf die Sprünge geholfen

ulli_um · 02. Jul 2020

geimist schrieb:
Das habe ich aufgrund deines Posts gestern mit dem Exiftool probiert. Perl und Exiftool müsste vom User separat installiert werden. Sofern vorhanden, werden die Daten geschrieben. Das sind 3 Zeilen Code (im jetzigen Stadium) …

Das nenn ich mal fix!

geimist schrieb:
Ich verstehe das also so, dass das letztendlich auch nur gefundene Tags sind, die du lediglich als Subjekt als Metadata schreibst. Richtig?
Es ist doch das gleiche Ergebnis, wie wenn man nach den Tag "Rechnung " AND "Wohnung" sucht …

Ja prinzipiel hast du recht. Is nur eine Formsache, Wenn man das Subject dem Dateinamen vorne anstellt, hat man eben schnell eine übersicht über die Dokumentenkategorien.

geimist schrieb:
Sprichst du hier von einem bestimmten Programm? Wo hast du diese Rubriken?

Ja ich nutze derzeit noch Paperless (https://github.com/the-paperless-project/paperless)
Möchte aber davon weg, weil OCR, Tags, Subjects in einer Datenbank liegen und ich dann immer abhängig von der SW bin. FInde es besser es auf Filebasis zu haben. Alle Daten sollten im File gespeichert sein finde ich

geimist schrieb:
Wie ich schon schrieb: in meinem Workflow hat das taggen keine große Priorität. Bei mir kommen alle Scans eines Jahres ein einen einzigen Ordner. Namensschema ist YYYY-MM-TT_Tags.pdf. Auf dem Mac suche ich einfach mit Spotlight und finde in der Regel in Sekunden, was ich suche.

Verstehe, d.h. es stört dich dann nicht auch wenn files falsche Tags haben...

geimist · 02. Jul 2020

ulli_um schrieb:
Verstehe, d.h. es stört dich dann nicht auch wenn files falsche Tags haben...

Naja, bisher waren meine Regeln sehr rudimentär …

TeXniXo · 02. Jul 2020

ulli_um schrieb:
Alle Daten sollten im File gespeichert sein finde ich

/sign

geimist schrieb:
bisher waren meine Regeln sehr rudimentär …

Für mich aber nach wie vor ausreichend und auch umfangreich genug. Nur hätte ich wie du eh schon weißt den Organizer (z.B. von tfeldmann) gerne dazu in GUI - aber ist ein anderes Kapitel bzw. eher ein anderes Buch

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Kaffeautomat