synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.518
Punkte für Reaktionen
1.354
Punkte
234
Vielen Dank. Das beruhigt mich insofern, dass der Fehler nicht von mir kommt. Wird sicherlich in einem nächsten Build von ocrmypdf gefixt. Alternativ wäre es bestimmt nicht schlecht, den Fehler (das OCRmyPDF-Log von oben) an jbarlow83 zu melden.
 

sanshiro

Benutzer
Mitglied seit
13. Apr 2019
Beiträge
2
Punkte für Reaktionen
0
Punkte
1
Hello, looks like all my input file got the fllozing error message, I realize this this is happeningsince a few weeks (maybe due to a recent update)... anyone could help ? Thank you!

PROCESSING: ? conso_001661.pdf (Sun Jun 28 16:24:05 CEST 2020)
temp. target file: /tmp/tmp.iS1rtPVqs3/conso_001661.pdf

? OCRmyPDF-LOG:
reading file from standard input
Using Tesseract OpenMP thread limit 3
1 skipping all processing on this page
An exception occurred while executing the pipeline
Traceback (most recent call last):
File "/usr/local/lib/python3.8/dist-packages/ocrmypdf/_sync.py", line 356, in run_pipeline
exec_concurrent(context)
File "/usr/local/lib/python3.8/dist-packages/ocrmypdf/_sync.py", line 293, in exec_concurrent
pdf = post_process(pdf, context)
File "/usr/local/lib/python3.8/dist-packages/ocrmypdf/_sync.py", line 234, in post_process
pdf_out = metadata_fixup(pdf_out, context)
File "/usr/local/lib/python3.8/dist-packages/ocrmypdf/_pipeline.py", line 766, in metadata_fixup
del meta['dc:title']
File "/usr/local/lib/python3.8/dist-packages/pikepdf/models/metadata.py", line 389, in __exit__
self._apply_changes()
File "/usr/local/lib/python3.8/dist-packages/pikepdf/models/metadata.py", line 455, in _apply_changes
self._update_docinfo()
File "/usr/local/lib/python3.8/dist-packages/pikepdf/models/metadata.py", line 411, in _update_docinfo
value = converter.docinfo_from_xmp(value)
File "/usr/local/lib/python3.8/dist-packages/pikepdf/models/metadata.py", line 172, in docinfo_from_xmp
return '; '.join(xmp_val)
TypeError: sequence item 0: expected str instance, NoneType found
? OCRmyPDF-LOG-END

?? failed! (target file is empty or not available)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.518
Punkte für Reaktionen
1.354
Punkte
234
Hallo sunshiro,

it seems to be the same problem as here.
The reason is an error in the Docker image (the current :latest, or 10.2.0). Please try another version. The next image update will almost certainly fix the problem.
 

ulli_um

Benutzer
Mitglied seit
20. Jun 2012
Beiträge
29
Punkte für Reaktionen
0
Punkte
1
Hallo zusammen,
ich möchte von Paperless gerne auf SynOCR umsteigen sobald meine 720 angekommen ist.
Dazu habe ich ein paar kurze Fragen:
* Nutzt Ihr für die Dokumentensuche Synology Universal Search oder Synology Drive? Geht beides?
* Ich habe herausgefunden das Universal Search auch Metadaten, wie Title, Keywords, Subjects findet. Eine tolle Visualisierung wäre wenn diese als Labels in Synology Drive auch angezeigt werde. Wisst ihr ob das geht? Ich könnte für SynOCR den Input leifern so das auch entsprechend die Metadaten gesetzt werden. Wäre auch übersichtlicher im Dateinamen.
* Setzt SynOCR das Dateidatum entsprechend des gefundenen Datums im Dateiname oder OCR? Ich suche oft über Dateierstelldatum z.B. nur 2015 Dokumente durchsuchen. (Das unterstützt Universal Search zumindest) Geht das?
* Gibt es in SynOCR so etwas wie Dokumentengruppen (z.B. Versicherung, Wohnung) die man Konfigurieren kann und entsprechend Schlagwörter in der OCR Suche zuordnen kann. Im Ziel wäre ein Dateiname wie folgt cool "<Subject>_<Name>_#<Tag>_#<Tag>_<Datum>.pdf". Wenn die Tags und Subject über Metdaten abgelegt werden und das File entsprechend dem Datum ein Erstelldatum trägt wäre der Filename nurnoch "<Name>.pdf" das wäre der Hammer!

Vielen Dank im Vorfeld und Grüße,
Ulli
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.518
Punkte für Reaktionen
1.354
Punkte
234
Hallo Ulli,
  1. durch das OCR verhalten sich die PDF-Dokumente für alle Anwendungen, die sie lesen können, wie Textdateien. Zum Indizieren nutze ich sowohl Documents auf iOS / iPadOS, als auch die systemweite Spotlightsuche auf dem Mac. Synology Universal Search oder Synology Drive geht natürlich genauso
  2. Tags in den PDF-Metadaten lassen sich derzeit nicht editieren. Du kannst natürlich von synOCR bearbeitete Dokumente in den Regeln entsprechende Unterordner (bald beliebige Ordner) einsortieren lassen
  3. Du kannst einstellen, ob das Dateidatum "OCR", "erstellt" oder "jetzt" ist. Für die Umbenennung steht die der entsprechende Tag-, Monats- und Jahr-String zu Verfügung
  4. ich weiß jetzt nicht, wie sich in deinem Beispiel <Subject> von <Tag> unterscheidet?
    Das Taggen habe ich ja schon angesprochen. Einige Metadaten sind möglich (z.B. Title und Autor - allerding global und nicht smart …)
    Mal sehen, ob ich eine Möglichkeit für die Tags finde. Standardmäßig sind es halt PDF/A-Dokumente, die sich nicht bearbeiten lassen. Möglicherweise sind die Metadaten davon ausgenommen.
 
Zuletzt bearbeitet:

ulli_um

Benutzer
Mitglied seit
20. Jun 2012
Beiträge
29
Punkte für Reaktionen
0
Punkte
1
Zu 2&4: Man kann auch bei PDF/A Dokumenten die Metadaten ändern. Die PDF/A Konformität ist danach immer noch gegeben.
Habe Konformität hier getestet: https://www.pdf-online.com/osa/validate.aspx
Die genannten Metadaten habe ich mit folgendem gesetzt "exiftool -overwrite_original -Title="TestTitel" -Subject="TestSub" -sep ", " -Keywords="Rechnung, Steuer" FileName". Danach konnte ich die Werte/Files in Universal Search finden.
zu 3: Ich meine nicht den Dateilnamen. Das Problem ist, wenn ich Files auf die Diskstation kopiere haben die immer das jetztige Erstelldatum nicht das welches z.B. im OCR gefunden wurden. Wie grenzt du die Suche auf einen Zeitraum ein?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.518
Punkte für Reaktionen
1.354
Punkte
234
Das mit dem Exiftool habe ich auch gefunden. Danke für deinen Test. Das klingt gut.
Wie grenzt du die Suche auf einen Zeitraum ein?
Also in meinem Workflow reicht mir die Volltextsuche. Sollte ich in Zukunft die Metadaten mit setzen lassen, dann kämen alle Infos hinein, die vorhanden sind.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.518
Punkte für Reaktionen
1.354
Punkte
234
Die genannten Metadaten habe ich mit folgendem gesetzt "exiftool -overwrite_original -Title="TestTitel" -Subject="TestSub" -sep ", " -Keywords="Rechnung, Steuer" FileName"
Was würdest du denn in einem Workflow als Quelle für Titel und Subject sehen?
 

ulli_um

Benutzer
Mitglied seit
20. Jun 2012
Beiträge
29
Punkte für Reaktionen
0
Punkte
1
Mein Workflow wäre wie folgt:
1. Dokument scannen mit Dokumentenbezeichnung z.B Jahresabschluss, Gehalt, Anmeldung,.. -> Titel
Evtl auch Bezeichnung und Dokumentenrubrik -> Subject, titel
2. Ocr des Dokuments
* Inhalt durchsuchen nach Schlagwörtern besser RegEx für Dokumentenrubrik z.B Wohnung, Garantie, Versicherung, Firma ...-> Subject
* Inhalt nach Datum durchsuchen, falls nicht vorhanden Dateierstelldatum -> Date
* Inhalt durchsuchen nach Schlagwörtern besser RegEx für Tags
3. Bilden des Dateinamens "Subject_Titel_#Tags_Date.pdf"
4 Review durch Anwender und Änderung über Dateinamen. File liegt im Review Ordner.
5. Erstellen finales Dokument:
* Setzen des Dateidatums, vermutlich Änderungsdatum der Datei um Suche über datum einzuschränken
* Setzen der Metadaten
* Erstellen Finales Dokument "Subject_Titel.pdf"
6. Einsortieren in Ordner
7. Dokument auffindbar über Datumseinschränkung, Tags, Subjects und ocr text

Was meinst du? Wie is dein Workflow?
Grüße,
Ulli
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.518
Punkte für Reaktionen
1.354
Punkte
234
Also dein zweigeteilter Workflow ist derzeit so mit synOCR nicht umsetzbar. Hier fehlt der Reviewschritt. Für mich persönlich ist die ganze Sache mit den Tags ect. auch nicht bedeutend, sondern baut nur auf die Userwünsche auf.

Derzeit läuft es so (RegEx noch nicht in der aktuellen public-Version möglich):
  1. auf alle Dokumente im Input-Ordner wird OCR angewandt
    Filterkriterien für Prä- und Suffix (inkl. Ausschlusskriterium) ist demnächst möglich
  2. Es wird nach Tags gesucht
  3. Es wird nach Datum gesucht (der User kann angeben, ob auf der 1. Seite oder auf allen gesucht werden soll)
  4. mit Exiftool werden die Tags und das OCR-Datum in die Metadaten geschrieben
  5. Das Dateidatum wird angepasst (der User definiert die Quelle: OCR, create, oder NOW)
  6. Der Dateiname wird nach Uservorgabe zusammengesetzt
  7. Es werden Hardlinks in die Zielordner gesetzt (gemäß den erfüllten Tagregeln)
Ich habe noch keine Vision zu deinem Subject. Es gibt schon den Titel (der Originaldateiname) und die gefundenen Tags (Aliasse werden möglich sein, d.h. suche SIXT und setze Fahrtkosten)
 

ulli_um

Benutzer
Mitglied seit
20. Jun 2012
Beiträge
29
Punkte für Reaktionen
0
Punkte
1
Spannend, dann setzt du ja heute schon Metadaten!

Die Subjects find ich praktisch, denn oft möchte ich mir nur bestimmte Rechnungen z.B zur Wohnung ansehen für die Steuer
Daher habe ich Rubriken/Subjects genutzt die erlauben Themengruppen zu filtern.

Wenn du sagst du setzt das Dateidatum. Meinst du damit den Dateinamen oder das Erstell-/Änderungsdatum der Datei?

Wie ist es dir in deinem Workflow möglich Dinge zu korrigieren, wenn z.b falsche tags/datum gesetzt werden? Wie erkennst du neue files und wie änderst du die Daten?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.518
Punkte für Reaktionen
1.354
Punkte
234
Spannend, dann setzt du ja heute schon Metadaten!
Das habe ich aufgrund deines Posts gestern mit dem Exiftool probiert. Perl und Exiftool müsste vom User separat installiert werden. Sofern vorhanden, werden die Daten geschrieben. Das sind 3 Zeilen Code (im jetzigen Stadium) …
Die Subjects find ich praktisch, denn oft möchte ich mir nur bestimmte Rechnungen z.B zur Wohnung ansehen für die Steuer
Ich verstehe das also so, dass das letztendlich auch nur gefundene Tags sind, die du lediglich als Subjekt als Metadata schreibst. Richtig?
Es ist doch das gleiche Ergebnis, wie wenn man nach den Tag "Rechnung " AND "Wohnung" sucht …
Daher habe ich Rubriken/Subjects genutzt die erlauben Themengruppen zu filtern.
Sprichst du hier von einem bestimmten Programm? Wo hast du diese Rubriken?
Wenn du sagst du setzt das Dateidatum. Meinst du damit den Dateinamen oder das Erstell-/Änderungsdatum der Datei?
Der User kann beides definieren
Wie ist es dir in deinem Workflow möglich Dinge zu korrigieren, wenn z.b falsche tags/datum gesetzt werden?
Wie ich schon schrieb: in meinem Workflow hat das taggen keine große Priorität. Bei mir kommen alle Scans eines Jahres ein einen einzigen Ordner. Namensschema ist YYYY-MM-TT_Tags.pdf. Auf dem Mac suche ich einfach mit Spotlight und finde in der Regel in Sekunden, was ich suche.
Wie erkennst du neue files und wie änderst du die Daten?
Mein Scanner erstellt alle Scans mit dem Präfix "SCAN_….pdf". Nur diese Dateien werden von synOCR verarbeitet. Der Ausgabeordner ist bei mir ein anderer.
 

jomagese

Benutzer
Mitglied seit
20. Jan 2012
Beiträge
7
Punkte für Reaktionen
0
Punkte
1
Hallo Ihr,

Wenn ich jetzt z.B. bei zu suchende Tags das hier eingebe:
§Rechnung;genssicherungspolice;§541-PK-00000=Versicherungen/Vermögenssicherungspolice/Rechnungen/2020

Dann sucht das Programm ja nach einem dieser Punkte: §Rechnung;genssicherungspolice;§541-PK-00000
und ist einer der Punkte vorhanden
dann wird die Datei hier hin kopiert: Versicherungen/Vermögenssicherungspolice/Rechnungen/2020

Gibt es auch eine Möglichkeit dass man sagt:
Es müssen alle 3 Punkte gegeben sein
§Rechnung;genssicherungspolice;§541-PK-00000
und dann wird erst die Datei verschoben

sprich nicht nur oder sondern auch eine und Funktion?

Danke schonmal

Marco
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.518
Punkte für Reaktionen
1.354
Punkte
234
und ist einer der Punkte vorhanden
dann wird die Datei hier hin kopiert: Versicherungen/Vermögenssicherungspolice/Rechnungen/2020
Nein, lediglich wenn §541-PK-00000 gefunden wird, wird verschoben (nur für diesen Tag ist bei dir mittels Gleichheitszeichen eine Kategorie zugewiesen). Du kannst für jeden Tag eine Kategorie zuweisen, aber nicht kombiniert.
Ein erweitertes Regelmanagement mit kombinierten Kriterien kommt mit dem nächsten Release.
 

jomagese

Benutzer
Mitglied seit
20. Jan 2012
Beiträge
7
Punkte für Reaktionen
0
Punkte
1
Ein erweitertes Regelmanagement mit kombinierten Kriterien kommt mit dem nächsten Release.

Klasse!
Danke schonmal für die ganze arbeit
 

TeXniXo

Benutzer
Mitglied seit
07. Mai 2012
Beiträge
4.948
Punkte für Reaktionen
100
Punkte
134

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.518
Punkte für Reaktionen
1.354
Punkte
234
In Anlehnung an dem, bzw. dessen Syntax (im Groben). Der User wird alternativ zu den bisherigen Regeln auch ein YAML-File nutzen können. Es läuft also nicht über die GUI, bisherige Regeln können aber konvertiert werden.
@mamema hat mir da auf die Sprünge geholfen :)
 
Zuletzt bearbeitet:

ulli_um

Benutzer
Mitglied seit
20. Jun 2012
Beiträge
29
Punkte für Reaktionen
0
Punkte
1
Das habe ich aufgrund deines Posts gestern mit dem Exiftool probiert. Perl und Exiftool müsste vom User separat installiert werden. Sofern vorhanden, werden die Daten geschrieben. Das sind 3 Zeilen Code (im jetzigen Stadium) …
Das nenn ich mal fix! :)

Ich verstehe das also so, dass das letztendlich auch nur gefundene Tags sind, die du lediglich als Subjekt als Metadata schreibst. Richtig?
Es ist doch das gleiche Ergebnis, wie wenn man nach den Tag "Rechnung " AND "Wohnung" sucht …
Ja prinzipiel hast du recht. Is nur eine Formsache, Wenn man das Subject dem Dateinamen vorne anstellt, hat man eben schnell eine übersicht über die Dokumentenkategorien.

Sprichst du hier von einem bestimmten Programm? Wo hast du diese Rubriken?
Ja ich nutze derzeit noch Paperless (https://github.com/the-paperless-project/paperless)
Möchte aber davon weg, weil OCR, Tags, Subjects in einer Datenbank liegen und ich dann immer abhängig von der SW bin. FInde es besser es auf Filebasis zu haben. Alle Daten sollten im File gespeichert sein finde ich

Wie ich schon schrieb: in meinem Workflow hat das taggen keine große Priorität. Bei mir kommen alle Scans eines Jahres ein einen einzigen Ordner. Namensschema ist YYYY-MM-TT_Tags.pdf. Auf dem Mac suche ich einfach mit Spotlight und finde in der Regel in Sekunden, was ich suche.
Verstehe, d.h. es stört dich dann nicht auch wenn files falsche Tags haben...
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.518
Punkte für Reaktionen
1.354
Punkte
234

TeXniXo

Benutzer
Mitglied seit
07. Mai 2012
Beiträge
4.948
Punkte für Reaktionen
100
Punkte
134


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat