DeeKay1
Benutzer
- Mitglied seit
- 20. Jun 2020
- Beiträge
- 100
- Punkte für Reaktionen
- 23
- Punkte
- 24
Hi @geimist
ich hab mal wieder ein Prob mit Regex
Allerdings diesmal nicht mit den eigenen Regeln sondern mit der Datumserkennung.
Bei dem Briefkopf unten ist ja ein Datum oberhalb der Adresse -> ...025*23.07.20*
Zwar ist rechts nochmal das "echte" Datum (17.07.2020) aber synOCR erkennt das linke natürlich zuerst.
Das führt dann zu dem hier:
check date (dd mm [yy]yy): "8535970"119025"23.07.20*./synOCR.sh: line 872: 10#8535970
119025
23 : syntax error in expression (error token is "119025
23 ")
? invalid format
check date ([yy]yy mm dd): "8535970"119025"23.07.20* ? invalid format
check date (mm dd [yy]yy): 17.07.2020 ? invalid format
Date not found in OCR text - use file date:
Zum einen versteh ich nicht, wieso er das Datum 23.07.20 nicht korrekt aus dem Briefkopf rauslöst, da dein Datums-Regex eigentlich korrekt ist. Prinzipiell wird mit dem Regex eigentlich alles vor und nach dem Datum entfernt - scheint aber hier irgendwie mit awk ein Spezialfall zu sein.
Zum anderen geht synOCR ja dann doch noch irgendwie auf das "echte" Datum, aber startet nicht mehr bei ddmmyy, sondern direkt bei mmddyy, wodurch das Format nicht passt.
Bevor ich hier Änderungen vorschlage wollte ich mal deine Meinung dazu abfragen.
ich hab mal wieder ein Prob mit Regex
Allerdings diesmal nicht mit den eigenen Regeln sondern mit der Datumserkennung.
Bei dem Briefkopf unten ist ja ein Datum oberhalb der Adresse -> ...025*23.07.20*
Zwar ist rechts nochmal das "echte" Datum (17.07.2020) aber synOCR erkennt das linke natürlich zuerst.
Das führt dann zu dem hier:
check date (dd mm [yy]yy): "8535970"119025"23.07.20*./synOCR.sh: line 872: 10#8535970
119025
23 : syntax error in expression (error token is "119025
23 ")
? invalid format
check date ([yy]yy mm dd): "8535970"119025"23.07.20* ? invalid format
check date (mm dd [yy]yy): 17.07.2020 ? invalid format
Date not found in OCR text - use file date:
Zum einen versteh ich nicht, wieso er das Datum 23.07.20 nicht korrekt aus dem Briefkopf rauslöst, da dein Datums-Regex eigentlich korrekt ist. Prinzipiell wird mit dem Regex eigentlich alles vor und nach dem Datum entfernt - scheint aber hier irgendwie mit awk ein Spezialfall zu sein.
Zum anderen geht synOCR ja dann doch noch irgendwie auf das "echte" Datum, aber startet nicht mehr bei ddmmyy, sondern direkt bei mmddyy, wodurch das Format nicht passt.
Bevor ich hier Änderungen vorschlage wollte ich mal deine Meinung dazu abfragen.
Zuletzt bearbeitet: