synOCR synOCR - GUI für OCRmyPDF

RogerR · 08. Apr. 2022

Danke für das tolle Tool!
Ich setze es schon sehr lange ein - ohne Probleme.

Jetzt habe ich aber einen Sonderfall und weiß nicht, ob das geht:
Ich habe bereits Dateien, die mittels der Scanner Software von Fujitsu (Pagestream Capture) sauber erkannt wurden. Leider kann die Software nicht das, was SynOCR kann: Dateien nach Inhalt umbenennen. Im Detail geht es darum, dass der Lieferant der eingescannten Rechnung im Dateinamen erscheinen soll (und vielleicht auch die Rechnungsnummer).
Kann ich das auch mit SynOCR umsetzen? Also lediglich die Dateiumbenennung, basierend auf den erkannten Daten? (Eine Namensliste kann ich bereits stellen.)

Bisher hat es mir gereicht, das Dateidatum zu erkennen und gut. Mit "OCR in Dateiname" habe ich leider noch nichts gemacht. Ich würde mich freuen, wenn ihr mir helfen könntet, sofern das geht. Danke!!

geimist · 08. Apr. 2022

Standardmäßig ist der OCR-Parameter -s gesetzt, weshalb Dokumente mit enthaltenem OCR-Text nicht erneut erkannt werden.
(Das bedeutet aber nicht, dass für jedes Dokument ocrmypdf gestartet werden muss).

Um deine Dokumente entsprechend umzubenennen, braucht man klare Erkennungsmerkmale. Das Ganze ist zu dem nur über eine externe Regeldatei umsetzbar. Vielleicht hilft dir schon das Wiki, wenn nicht, brauchen wir etwas mehr Kontext.

mamema · 09. Apr. 2022

alternativ, wenn OCRmyPDF das falsche Tool für "nur sortieren" ist, dann evtl. woanders schauen, bspw. Total Commander mit xpdfsearch plugin.

guidovg · 11. Apr. 2022

Da die Verabeitung durch SynOCR eine der wichtigsten Funktionen auf meinem NAS ist wollte ich mal fragen, wie Eure Erfahrungen mit DSM 7.1 sind? Irgendetwas besonderes in diesem Zusammenhang zu bachten?

Gthorsten · 11. Apr. 2022

Hast du 7.1 schon bekommen, oder selber installiert? Bei mir ist noch nichts... Aber ich denke es sollte unter 7.1 keine Probleme geben. Der große Sprung war ja von 6 nach 7

guidovg · 11. Apr. 2022

@Gthorsten nein, einen Hinweis in der Systemsteuerung habe ich noch nicht bekommen. Habe aber gerade ein paar Tage frei und da passen solche Projekte immer ganz gut

geimist · 11. Apr. 2022

Ein Test im vDSM 7.1 war hier unauffällig. Lediglich die DSM-Benachrichtigung schien hier nicht korrekt zu funktionieren. Dabei kann es sich aber auch um eine lokale Unstimmigkeit handeln. Das werde ich noch ergründen.

plang.pl · 11. Apr. 2022

Bei mir: 218+ unter 7.1: keine Probleme mit synOCR. Benachrichtigung nutze ich nicht

Monacum · 11. Apr. 2022

plang.pl schrieb:
Bei mir: 218+ unter 7.1: keine Probleme mit synOCR. Benachrichtigung nutze ich nicht

Dem schließe ich mich zu 100% an!

TSI · 22. Apr. 2022

Ich bin komplett neu und habe jetzt 2 Tage alles versucht. Docker ist installiert und synOCR auch. Ich bekomme immer die Fehlermeldung: "Quellverzeichnis oder Berechtigung in der Konfiguration prüfen!!!"
Bin leider technisch nicht so versiert. Habe eine DS918 mit DSM 7.1. Vielleicht kann mir ja jemand helfen.

geimist · 22. Apr. 2022

Herzlich willkommen hier im Forum

Hast du rechts von den Pfaden in der GUI einen grünen Haken, oder ein rotes Kreuz?
Hast du im DSM Aufgabenplaner ein benutzerdefiniertes Skript für den User root mit folgendem Inhalt erstellt und bereits mindestens einmal ausgeführt?:
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh

TSI · 23. Apr. 2022

Habe das Problem gefunden. Die Ordner waren nicht richtig. Jetzt klappt alles. Vielen Dank.

TSI · 23. Apr. 2022

Ich habe in der Log-Datei folgende Fehlermeldung (siehe Datei). Was mache ich falsch, bzw. wie kann ich das Problem beheben?

synfor · 23. Apr. 2022

Warum macht man vom Inhalt eines Logs (Plain Text) einen Screenshot?

geimist · 23. Apr. 2022

TSI schrieb:
Habe das Problem gefunden. Die Ordner waren nicht richtig. Jetzt klappt alles. Vielen Dank.

Das freut mich

TSI schrieb:
Ich habe in der Log-Datei folgende Fehlermeldung

➜ FAQ: "was bedeuten diese Fehlermeldungen im Log?"

TSI · 23. Apr. 2022

Danke.

OCR_rookie · 24. Apr. 2022

Hallo zusammen - ich bin komplett neu hier im Forum. Ich bin zufällig über einen Presseartikel über die synOCR Applikation gestolpert. Nach einigen Anlaufschwierigkeiten bin ich begeistert von den Möglichkeiten die diese Software bietet. Hut ab vor den Entwicklern!

Beim Einrichten meiner Scanlösung bin ich auf ein Problem gestossen, für welches ich im Forum trotz langem Suche noch keinen ähnlichen Eintrag gefunden haben. Ich hoffe Ihr könnt mir einen Schritt weiterhelfen.

Folgendes Problem habe ich:
Beim bearbeiten einer bestimmten PDF Datei erhalte ich folgenden Logeintrag:
DEBUG ocrmypdf.subprocess.gs - Page 1
DEBUG ocrmypdf.subprocess.gs - Loading NimbusSans-Regular font from /usr/share/ghostscript/9.55.0/Resource/Font/NimbusSans-Regular... 5076816 3544927 2494432 1110871 4 done.
DEBUG ocrmypdf.subprocess.gs -
DEBUG ocrmypdf.subprocess.gs - **** Error: A limitcheck error occured while setting the Text Character spacing to -2147483647
DEBUG ocrmypdf.subprocess.gs - Output may be incorrect.
DEBUG ocrmypdf.subprocess.gs - Can't find CID font "HeiseiMin-W3".

Für mich sieht das so aus, wie wenn hier eine betimmte Font Datei Fehlt.
Dadurch bricht der scan ab und ich erhalte nur sehr wenige OCR Informationen aus dem PDF. Optisch seht das original PDF in etwa so aus wie andere PDF's derselbe Firma, welche einwandfrei funktionieren.

Kann mir jemand einen Tipp geben wie ich eine Font Datei laden kann. (Meine Linux Kenntnisse sind eher begrenzt :-()

Folgendes Setup habe ich im Betrieb:
Synologie NAS DSM 6
Docker Version 20.10.3-0554
ocrmypdf habe ich verschiedenen Versionen ausprobiert. Z.B. polyglott oder das Standardpaket jeweils in der "latest" Version.
synOCR verwende ich V1.2.0 Beta

Danke für Eure Unterstützung

geimist · 25. Apr. 2022

Der Fehler scheint mir direkt von OCRmyPDF zu kommen. Du könntest mal eine ältere Version laden und in der GUI auswählen (z.B. v12.7.1). Ansonst mal direkt beim Entwickler von OCRmyPDF nachfragen.

PS:
Evtl. hilft es auch, etwas mit den Paramtern zu spielen (z.B. mal s weglassen oder durch f ersetzen).

OCR_rookie · 25. Apr. 2022

Danke, werde ich versuchen

BlackAlpha · 29. Apr. 2022

Moin zusammen,

ich teste derzeit ein wenig mit synOCR und bin vollkommen begeistert. Danke für dieses geniale Tool!

Ich habe mir eine Regeldatei angelegt und kann damit grundsätzlich alles umsetzen, was ich benötige. Dabei sind mir jedoch 2 Kleinigkeiten aufgefallen:

Wenn mehrere Regeln zutreffen und somit mehrere Tags, scheint die Reihenfolge der Regeln egal zu sein und die Tags werden scheinbar immer alphabetisch sortiert. Zumindest bringt eine Änderung der Reihenfolge in der Datei keine Änderung. Hier würde ich mir einen Schalter wünschen, der dieses Verhalten abschaltet und die Tags entsprechend der Reihenfolge in der Datei anwendet.
Im Bezug auf 1. wäre noch ein zusätzlicher Schalter schön, der die Regelverarbeitung, vorausgesetzt sie erfolgt fest "von oben nach unten" (oder anders herum), in einer Regel bei einem Treffer für diese Datei beenden kann. Also z.B. folgendes Szenario (vereinfacht dargestellt):
1. Rechnung mit den Begriffen "Rechnung" und "Firma XY":
  Regel_1:
  tagname: Rechnung - Firma XY
  condition: all
  subrules:
  - searchstring: Rechnung
  - searchstring: Firma XY
  Regel_2:
  tagname: Rechnung - unbekannt
  subrules:
  - searchstring: Rechnung
  
  Hier würden beide Tags angewendet und die Datei danach z.B. "Rechnung - Firma XYRechnung - unbekannt..........pdf" heissen. Gäbe es bei Regel 1 nun einen Schalter (als Beispiel) break: true, könnte man die Regelverarbeitung nach Firma XY abbrechen und mit dem nächsten Dokument fortschreiten. Regel 2 würde nur greifen/ausgeführt, wenn die erste nicht zutrifft.

Ich hoffe, ich habe mich nicht zu kompliziert ausgedrückt oder eine schon vorhandene Funktion übersehen. ;-)

Viele Grüße,
BlackAlpha

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat