synOCR Dateiname aus OCR Text

CeBe

Benutzer
Registriert
19. März 2025
Beiträge
2
Reaktionspunkte
0
Punkte
1
Liebe Community, ich suche eine Möglichkeit mit synOCR einen neuen Dateinamen für die Outputdatei zu generieren, der nicht auf der Suche nach Tags (Datum, etc.) basiert, sondern einfach die z.B. ersten 20 Zeichen die mittels OCR erkannt wurden als Dateinamen übernimmt. Kennt einer von euch eine Lösung dafür?

Vielen Dank!
 
Du meinst, die ersten 20 Zeichen - in der Regel also die Absender-Informationen in einem Brief/einer Rechnung?
 
Ja, die ersten 20 Zeichen. Das kann der Absender oder irgendetwas anderes sein. Meist reicht das aber aus um schon am Dateinamen zu erkennen was es ist, Hatte bisher HP Smart dafür genutzt aber die haben diesen Service leider eingestellt.
 
Warum fragst du nicht im Thread? Da hättest du den Entwickler @geimist direkt.
 
Meine Erfahrung (Fujitsu Scanner mit der mitgelieferten OCR Lösung von Abby) ist die, dass gerade am Anfang von Dokumenten wie Rechnungen viel Mist steht. Das geht bis zu irgendwelchen Kunstschriften als Logo, die das OCR dann völlig falsch auffasst.

Der Korrekturbedarf war viel größer als der reale Nutzen. Die Fehler im OCR Ergebnis spielen dort keine Rolle, weil man nach dem gespeicherten Müll aus der Falscherkennung nie suchen wird. Aber als Basis für den Dateinamen war es meistens unbrauchbar.
 
Sorry, ich hatte den Thread in der Tat nicht bemerkt. Ich bin ja auch nicht jeden Tag hier und werde dann bei einer Erwähnung auch nicht per Mail informiert.

ich suche eine Möglichkeit mit synOCR einen neuen Dateinamen für die Outputdatei zu generieren, der … einfach die z.B. ersten 20 Zeichen die mittels OCR erkannt wurden als Dateinamen übernimmt.
Ich könnte mir vorstellen, dass das mit einem Regex realisierbar ist (Stichwort: tagname_regex).
Ich rufe mal unseren @Struppix 📣

Meine Erfahrung (Fujitsu Scanner mit der mitgelieferten OCR Lösung von Abby) ist die, dass gerade am Anfang von Dokumenten wie Rechnungen viel Mist steht.
Die Qualität kann mit im Debuglevel 2 validieren, weil da im Log-Ordner der erkannte Textauszug abgelegt wird.
Fehlinterpretationen kann man auch mit Schwarzweiß-Scans (also in 1Bit Farbtiefe) minimieren, weil dies z.B. das Durchscheinen der Rückseite gut eliminiert.
 
Mein Problem liegt nicht am OCR, sondern am Inhalt der Dokumente. Am Dokumentenanfang findet sich oft ein Logo (mit Schrift) und so spannende Themen wie die Anschrift oder die Faxnummer. Das Logo wird immer mal fehlinterpretiert, weil der OCR-Algorithmus den Text erkennt, dann aber in den grafischen Teilen weiteren Text dazu phantasiert.

Nach meiner Erfahrung vergebe ich lieber gleich selbst ordentliche Dateinamen.
 
sondern einfach die z.B. ersten 20 Zeichen die mittels OCR erkannt wurden
Hallo,

Chef ruft und ich schau mal vorbei. Das was Du suchst ist ganz leicht:
YAML:
.{20}

Mehr braucht es nicht. In einer Regel für zB synOCR sehe das zB so aus:
Code:
rule_1001:
    tagname: §tagname_RegEx
    tagname_RegEx: .{20)
    condition: all
    subrules:
    - searchstring: .
      searchtyp: contains

Aber diese Suche ist ziemlich unnütz.

Versuche doch mal das hier:
Code:
rule_1001:
    tagname: §tagname_RegEx
    tagname_RegEx: (?i-m)(?<=)(([a-z\p{L}]*)([\.\,\-\:\;\•\|\&\/*\!\(\)\ ]*)([a-z\p{L}]*))(?=)
    condition: all
    subrules:
    - searchstring: .
      searchtyp: contains

SynOCR gibt somit immer die ersten beiden Wörter der ersten Zeile aus. Steht dort nur eines, dann dieses. Steht da kein Wort dann die der nächsten Zeile.

Viel Erfolg
Karsten
 

Additional post fields

 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat