synOCR synOCR - GUI für OCRmyPDF

RogerR

Benutzer
Mitglied seit
12. Dez 2019
Beiträge
48
Punkte für Reaktionen
7
Punkte
8
Danke für das tolle Tool!
Ich setze es schon sehr lange ein - ohne Probleme.

Jetzt habe ich aber einen Sonderfall und weiß nicht, ob das geht:
Ich habe bereits Dateien, die mittels der Scanner Software von Fujitsu (Pagestream Capture) sauber erkannt wurden. Leider kann die Software nicht das, was SynOCR kann: Dateien nach Inhalt umbenennen. Im Detail geht es darum, dass der Lieferant der eingescannten Rechnung im Dateinamen erscheinen soll (und vielleicht auch die Rechnungsnummer).
Kann ich das auch mit SynOCR umsetzen? Also lediglich die Dateiumbenennung, basierend auf den erkannten Daten? (Eine Namensliste kann ich bereits stellen.)

Bisher hat es mir gereicht, das Dateidatum zu erkennen und gut. Mit "OCR in Dateiname" habe ich leider noch nichts gemacht. Ich würde mich freuen, wenn ihr mir helfen könntet, sofern das geht. Danke!!
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Standardmäßig ist der OCR-Parameter -s gesetzt, weshalb Dokumente mit enthaltenem OCR-Text nicht erneut erkannt werden.
(Das bedeutet aber nicht, dass für jedes Dokument ocrmypdf gestartet werden muss).

Um deine Dokumente entsprechend umzubenennen, braucht man klare Erkennungsmerkmale. Das Ganze ist zu dem nur über eine externe Regeldatei umsetzbar. Vielleicht hilft dir schon das Wiki, wenn nicht, brauchen wir etwas mehr Kontext.
 

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
alternativ, wenn OCRmyPDF das falsche Tool für "nur sortieren" ist, dann evtl. woanders schauen, bspw. Total Commander mit xpdfsearch plugin.
 

guidovg

Benutzer
Mitglied seit
26. Nov 2011
Beiträge
142
Punkte für Reaktionen
43
Punkte
34
Da die Verabeitung durch SynOCR eine der wichtigsten Funktionen auf meinem NAS ist wollte ich mal fragen, wie Eure Erfahrungen mit DSM 7.1 sind? Irgendetwas besonderes in diesem Zusammenhang zu bachten?
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Hast du 7.1 schon bekommen, oder selber installiert? Bei mir ist noch nichts... Aber ich denke es sollte unter 7.1 keine Probleme geben. Der große Sprung war ja von 6 nach 7
 

guidovg

Benutzer
Mitglied seit
26. Nov 2011
Beiträge
142
Punkte für Reaktionen
43
Punkte
34
@Gthorsten nein, einen Hinweis in der Systemsteuerung habe ich noch nicht bekommen. Habe aber gerade ein paar Tage frei und da passen solche Projekte immer ganz gut :)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Ein Test im vDSM 7.1 war hier unauffällig. Lediglich die DSM-Benachrichtigung schien hier nicht korrekt zu funktionieren. Dabei kann es sich aber auch um eine lokale Unstimmigkeit handeln. Das werde ich noch ergründen.
 
  • Like
Reaktionen: guidovg

plang.pl

Benutzer
Contributor
Sehr erfahren
Mitglied seit
28. Okt 2020
Beiträge
15.028
Punkte für Reaktionen
5.401
Punkte
564
Bei mir: 218+ unter 7.1: keine Probleme mit synOCR. Benachrichtigung nutze ich nicht
 
  • Like
Reaktionen: geimist

TSI

Benutzer
Mitglied seit
22. Apr 2022
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Ich bin komplett neu und habe jetzt 2 Tage alles versucht. Docker ist installiert und synOCR auch. Ich bekomme immer die Fehlermeldung: "Quellverzeichnis oder Berechtigung in der Konfiguration prüfen!!!"
Bin leider technisch nicht so versiert. Habe eine DS918 mit DSM 7.1. Vielleicht kann mir ja jemand helfen.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Herzlich willkommen hier im Forum :)

Hast du rechts von den Pfaden in der GUI einen grünen Haken, oder ein rotes Kreuz?
Hast du im DSM Aufgabenplaner ein benutzerdefiniertes Skript für den User root mit folgendem Inhalt erstellt und bereits mindestens einmal ausgeführt?:
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh
 

TSI

Benutzer
Mitglied seit
22. Apr 2022
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Habe das Problem gefunden. Die Ordner waren nicht richtig. Jetzt klappt alles. Vielen Dank.
 

TSI

Benutzer
Mitglied seit
22. Apr 2022
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Ich habe in der Log-Datei folgende Fehlermeldung (siehe Datei). Was mache ich falsch, bzw. wie kann ich das Problem beheben?
 

Anhänge

  • Bildschirmfoto 2022-04-23 um 08.10.42.png
    Bildschirmfoto 2022-04-23 um 08.10.42.png
    41,3 KB · Aufrufe: 17

synfor

Benutzer
Sehr erfahren
Mitglied seit
22. Dez 2017
Beiträge
9.033
Punkte für Reaktionen
1.615
Punkte
308
Warum macht man vom Inhalt eines Logs (Plain Text) einen Screenshot?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234

OCR_rookie

Benutzer
Mitglied seit
14. Apr 2022
Beiträge
2
Punkte für Reaktionen
0
Punkte
1
Hallo zusammen - ich bin komplett neu hier im Forum. Ich bin zufällig über einen Presseartikel über die synOCR Applikation gestolpert. Nach einigen Anlaufschwierigkeiten bin ich begeistert von den Möglichkeiten die diese Software bietet. Hut ab vor den Entwicklern!

Beim Einrichten meiner Scanlösung bin ich auf ein Problem gestossen, für welches ich im Forum trotz langem Suche noch keinen ähnlichen Eintrag gefunden haben. Ich hoffe Ihr könnt mir einen Schritt weiterhelfen.

Folgendes Problem habe ich:
Beim bearbeiten einer bestimmten PDF Datei erhalte ich folgenden Logeintrag:
DEBUG ocrmypdf.subprocess.gs - Page 1
DEBUG ocrmypdf.subprocess.gs - Loading NimbusSans-Regular font from /usr/share/ghostscript/9.55.0/Resource/Font/NimbusSans-Regular... 5076816 3544927 2494432 1110871 4 done.
DEBUG ocrmypdf.subprocess.gs -
DEBUG ocrmypdf.subprocess.gs - **** Error: A limitcheck error occured while setting the Text Character spacing to -2147483647
DEBUG ocrmypdf.subprocess.gs - Output may be incorrect.
DEBUG ocrmypdf.subprocess.gs - Can't find CID font "HeiseiMin-W3".

Für mich sieht das so aus, wie wenn hier eine betimmte Font Datei Fehlt.
Dadurch bricht der scan ab und ich erhalte nur sehr wenige OCR Informationen aus dem PDF. Optisch seht das original PDF in etwa so aus wie andere PDF's derselbe Firma, welche einwandfrei funktionieren.

Kann mir jemand einen Tipp geben wie ich eine Font Datei laden kann. (Meine Linux Kenntnisse sind eher begrenzt :-()


Folgendes Setup habe ich im Betrieb:
Synologie NAS DSM 6
Docker Version 20.10.3-0554
ocrmypdf habe ich verschiedenen Versionen ausprobiert. Z.B. polyglott oder das Standardpaket jeweils in der "latest" Version.
synOCR verwende ich V1.2.0 Beta

Danke für Eure Unterstützung
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Der Fehler scheint mir direkt von OCRmyPDF zu kommen. Du könntest mal eine ältere Version laden und in der GUI auswählen (z.B. v12.7.1). Ansonst mal direkt beim Entwickler von OCRmyPDF nachfragen.

PS:
Evtl. hilft es auch, etwas mit den Paramtern zu spielen (z.B. mal s weglassen oder durch f ersetzen).
 
Zuletzt bearbeitet:

BlackAlpha

Benutzer
Mitglied seit
10. Jan 2018
Beiträge
8
Punkte für Reaktionen
0
Punkte
1
Moin zusammen,

ich teste derzeit ein wenig mit synOCR und bin vollkommen begeistert. Danke für dieses geniale Tool! :)

Ich habe mir eine Regeldatei angelegt und kann damit grundsätzlich alles umsetzen, was ich benötige. Dabei sind mir jedoch 2 Kleinigkeiten aufgefallen:
  1. Wenn mehrere Regeln zutreffen und somit mehrere Tags, scheint die Reihenfolge der Regeln egal zu sein und die Tags werden scheinbar immer alphabetisch sortiert. Zumindest bringt eine Änderung der Reihenfolge in der Datei keine Änderung. Hier würde ich mir einen Schalter wünschen, der dieses Verhalten abschaltet und die Tags entsprechend der Reihenfolge in der Datei anwendet.
  2. Im Bezug auf 1. wäre noch ein zusätzlicher Schalter schön, der die Regelverarbeitung, vorausgesetzt sie erfolgt fest "von oben nach unten" (oder anders herum), in einer Regel bei einem Treffer für diese Datei beenden kann. Also z.B. folgendes Szenario (vereinfacht dargestellt):
    1. Rechnung mit den Begriffen "Rechnung" und "Firma XY":
      Regel_1:
      tagname: Rechnung - Firma XY
      condition: all
      subrules:
      - searchstring: Rechnung
      - searchstring: Firma XY
      Regel_2:
      tagname: Rechnung - unbekannt
      subrules:
      - searchstring: Rechnung

      Hier würden beide Tags angewendet und die Datei danach z.B. "Rechnung - Firma XYRechnung - unbekannt..........pdf" heissen. Gäbe es bei Regel 1 nun einen Schalter (als Beispiel) break: true, könnte man die Regelverarbeitung nach Firma XY abbrechen und mit dem nächsten Dokument fortschreiten. Regel 2 würde nur greifen/ausgeführt, wenn die erste nicht zutrifft.
Ich hoffe, ich habe mich nicht zu kompliziert ausgedrückt oder eine schon vorhandene Funktion übersehen. ;-)

Viele Grüße,
BlackAlpha
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat