synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.377
Punkte
234
Wenn du das Loglevel auf 2 (debug mode) stellst, wird im Logordner eine Textdatei mit dem Suchtext erstellt. Damit kannst du die Erkennung prüfen. Wenn es für dich OK ist, kannst du mir auch gern ein Testdokument auf meinen Server laden (Link in der Signatur).
 
Zuletzt bearbeitet:
  • Like
Reaktionen: Gthorsten

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.377
Punkte
234
@claus_hipp: Ich habe gerade erst deinen Edit entdeckt.

Müsste es wohl drucken und wieder einscannen... damit die OCR drüber geht.
Du kannst ja mal den OCR Parameter -f setzen (-s muss dafür weg, sofern gesetzt). Das erzwingt eine erneute OCR-Erkennung.

p.S. es als Screenshot ins Word einfügen und dann als PDF Drucken hat nicht geklappt, das ignoriert die OCR.
Du kannst ab dieser Version auch ein Bild in den Quellordner legen. Dieses wird dann zu PDF konvertiert.
 
  • Like
Reaktionen: claus_hipp

claus_hipp

Benutzer
Mitglied seit
11. Jan 2022
Beiträge
11
Punkte für Reaktionen
4
Punkte
3
Guten Morgen.

Das mit dem Bild hat geklappt. Auch die Regel hat dabei getriggert.
Erneuter Versucht mit "-frd -l deu" statt "-Srd -l deu" und aktivierten Debugging mit dem PDF, welches nicht funktioniert, hat das Problem zu Tage gefördert:
Folgender Text wurde erkannt:
"ABC Hausverwaltung GmbH Speilstraße 123, 12345 Berlin
- Gebäude-Service-Management - "
Damit ist verständlich das die Regel nicht auslöst... Die Leerzeichen zwischen den Worten sind das Problem.

Als Lösung werde ich hier wohl auf eine Regex Prüfung übergehen. Trotzdem etwas unverständlich für mich warum, ein Copy&Paste aus dem PDF Text ein anderes Ergebnis zeigt:
"ABC Hausverwaltung GmbH Spielstraße 123, 12345"

Bisher habe ich neue Regeln immer so erstellt, dass ich den Text aus dem PDF kopiert habe, um so den searchstring zu extrahieren.

Na wenigstens kein Bug, sondern ein OCR Problem - Danke für deine Hilfe!

Nachtag für alle die das gleiche Problem mal haben sollten:
Die Lösung mit Regex sieht jetzt wie folgt aus:
YAML:
- searchstring: ABC\W+(HV|Hausverwaltung)\W+GmbH
 
Zuletzt bearbeitet:
  • Like
Reaktionen: geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.377
Punkte
234
Ab dem aktuellen Release gibt es in der GUI die Möglichkeit, multiple Leerzeichen im Suchtext genau für diesen Zweck auf ein einziges reduzieren zu lassen.
 
  • Like
Reaktionen: Monacum

claus_hipp

Benutzer
Mitglied seit
11. Jan 2022
Beiträge
11
Punkte für Reaktionen
4
Punkte
3
Ahh mit der Option "Leerzeichen bereinigen" funktoiniert es! Super die Funktion lasse ich auf jedenfall aktiviert.
Vielen Dank nochmal all deine Bemühungen!
 
  • Like
Reaktionen: Monacum und geimist

Schrotti

Benutzer
Mitglied seit
10. Okt 2020
Beiträge
22
Punkte für Reaktionen
3
Punkte
3
Hallo Stephan,
habe heute die inotify-tools über das Paketzentrum installiert. (Natürlich vorher auch Dein neues Paket installiert.)
Bekomme nun beim Taggen folgende Fehlermeldungen:
..... raise ScannerError("while scanning for the next token", None,
yaml.scanner.ScannerError: while scanning for the next token
found character '\t' that cannot start any token
in "<unicode string>", line 242, column 26:
casesensitive: true
^
ERROR at line 426: tag_rule_content=$( ${python3_env}/bin/python3 -c 'import sys, yaml, json; print(json.dumps(yaml.safe_load(sys.stdin.read()), indent=2, sort_keys=False))' < "${taglisttmp}")
ERROR - YAML-check failed!ERROR at line 2131: return 1
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Aus der Fehlermeldung sieht es so aus als wenn du einen Fehler in deiner Regeldatei hättest.
Da schlägt eine yaml prüfung fehl
 

Schrotti

Benutzer
Mitglied seit
10. Okt 2020
Beiträge
22
Punkte für Reaktionen
3
Punkte
3
Ich guck noch mal...
Yaml validator sagt, alles ist gut

Die letzte Regel-Änderung erfolgte auch bereits vor der Aktualisierung
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Ok ,es war nur eine Vermutung. Bin unterwegs und kann nicht im Code nachsehen. Aber Stephan wird bestimmt gucken wenn er das liest
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.377
Punkte
234
  • Like
Reaktionen: Schrotti

Schrotti

Benutzer
Mitglied seit
10. Okt 2020
Beiträge
22
Punkte für Reaktionen
3
Punkte
3
Natürlich war dort ein Tabulator gesetzt :mad:
Ab jetzt nehme ich nur noch den Notepad++ Editor.
Da kann ich die Zeilennummern und Steuerzeichen sehen.
Und wer lesen kann... der Fehlerort wurde ja auch genau angegebenScreenshot 2022-11-12 173016.png
 
  • Like
Reaktionen: geimist

Benares

Benutzer
Sehr erfahren
Mitglied seit
27. Sep 2008
Beiträge
13.772
Punkte für Reaktionen
3.743
Punkte
468
Aber Tabs in yaml-Dateien sind "böse" - verwende Leerzeichen.
 

Tommes

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
26. Okt 2009
Beiträge
9.669
Punkte für Reaktionen
1.566
Punkte
314
... und ich dachte immer, bash sei pingelig :ROFLMAO:
 
  • Like
Reaktionen: Monacum und Gthorsten

ACThomasAC

Benutzer
Mitglied seit
05. Mai 2022
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Hallo, ich habe jetzt hier mal quer gelesen, und offensichtlich scheint bei vielen synOCR mit DSM 7.1.1. zu laufen. Bei mir ist aber seit Release immer noch das Problem, dass ich das Paket Docker nicht installieren kann und entsprechend synOCR nicht installieren bzw. nicht ausführen kann.

Ich hatte seinerzeit synOCR ind der Version DSM7 installiert - leider konnte ich keine OCR-Scans durchführen, da das Paket Docker nicht vorhanden ist (s. Screenshot 1). Google-Recherche belegte, dass das Problem mit DSM 7 zutun hat, so dass ich erstmal abgewartet habe. Bis heute aber gibt es kein Docker-Paket.

Ich habe daher heute nochmal versucht die hier verlinkte synocr version DSM 7 zu installieren, hier scheitere ich jetzt schon im Installationsdialog - am fehlenden Docker-Paket (siehe Screenshot 2).

Offensichtlich arbeiten ja viele von euch mit einer laufenden synocr version. Was muss ich tun? oder habt ihr alle eine alte DSM-Version?
 

Anhänge

  • s1 synocr docker fehlt.png
    s1 synocr docker fehlt.png
    51,4 KB · Aufrufe: 8
  • s2 synocr isntallation.png
    s2 synocr isntallation.png
    40,3 KB · Aufrufe: 8

gunfran

Benutzer
Mitglied seit
25. Nov 2014
Beiträge
31
Punkte für Reaktionen
17
Punkte
58
Hallo, ich habe jetzt hier mal quer gelesen, und offensichtlich scheint bei vielen synOCR mit DSM 7.1.1. zu laufen. Bei mir ist aber seit Release immer noch das Problem, dass ich das Paket Docker nicht installieren kann und entsprechend synOCR nicht installieren bzw. nicht ausführen kann.

Da ich dein Vorwissen nicht kenne frag ich einfach mal ganz dumme Frage.
1. Du weißt das Docker ein seperates Paket ist, welches du seperat installieren musst?
2. Wenn du das weißt, bekommst du denn eine Fehlermeldung wenn du versuchst das Paket Docker zu installieren?

Noch eine dritte Frage. Welches Modell der Diskstation nutzt du denn?
 
Zuletzt bearbeitet:

ACThomasAC

Benutzer
Mitglied seit
05. Mai 2022
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Gibt ja bekanntlich keine dummen Fragen. Vorwissen ist begrenzt. Ich habe von einem selbsteingerichteten Linux-Server im Frühjahr auf das Synology-System gewechselt. Soweit klappt alles, bis auf die OCR-Erkennung.

System: DS220j mit DSM 7.1.1-42962 Update 2.

Das Docker-Paket wollte ich über das Paket-Zentrum installieren, dort wird es aber nicht aufgelistet. Mein letzter Stand ist, dass es kein aktualisiertes Docker-Paket für DSM 7 gibt.
 

gunfran

Benutzer
Mitglied seit
25. Nov 2014
Beiträge
31
Punkte für Reaktionen
17
Punkte
58
Ah. Da steckt wohl der Hund begraben.

Ich befürchte das auf deinem System kein Docker läuft.
Damit das Docker auf deinem NAS läuft wird eine bestimmte Prozessor-Architektur vorausgesetzt die dein System meines Wissens nicht hat.
Deshalb wird das Paket bei dir im Paket-Zentrum auch nicht gelistet.

Hier eine Übersicht der Systeme die für Docker nutzbar sind.
https://www.synology.com/de-de/dsm/packages/Docker
 

ACThomasAC

Benutzer
Mitglied seit
05. Mai 2022
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Habe jetzt gerade nochmal nachgeschaut, bei mir wird in den vier Reitern (Installiert, Alle Pakete, Beta-Pakete, Community) kein Docker Paket gefunden.

Manuell finde ich ein Paket unter https://archive.synology.com/download/Package/Docker. Die aktuellste Version lässt sich aber auch nicht installieren.
 

Anhänge

  • s3_docker failed.png
    s3_docker failed.png
    26,4 KB · Aufrufe: 1

ACThomasAC

Benutzer
Mitglied seit
05. Mai 2022
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Ah. Da steckt wohl der Hund begraben.

Ich befürchte das auf deinem System kein Docker läuft.
Damit das Docker auf deinem NAS läuft wird eine bestimmte Prozessor-Architektur vorausgesetzt die dein System meines Wissens nicht hat.
Deshalb wird das Paket bei dir im Paket-Zentrum auch nicht gelistet.

Hier eine Übersicht der Systeme die für Docker nutzbar sind.
https://www.synology.com/de-de/dsm/packages/Docker
Das ist ja ***. Alternativen gibt es keine?
 

gunfran

Benutzer
Mitglied seit
25. Nov 2014
Beiträge
31
Punkte für Reaktionen
17
Punkte
58
Meines Wissens nicht. Wenn du z.B. ARM Prozessor fährst dann wird Docker dort nicht funktionieren.
Ich bin zwar kein super Experte im Docker-Bereich, aber das ist was ich so gelesen habe.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat