synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.401
Punkte für Reaktionen
1.213
Punkte
234
I finally got synocr running after some user error (beginner here!). When synocr looks into text for dates it is reversing the month and date (I am from US so typically documents are month/day/year....synocr seems to be finding and doing day/month/year.
Which version of synOCR do you have installed?

I am not quite sure, but maybe you have to remove "deu" from "-srd -l deu+eng" in ocr options to recogize american date format.
No, this has nothing to do with it. This language parameter only controls the text recognition. The date search runs separately.

@Gthorsten
Sollte das das Pythonskript erkennen oder müssen wir da einen Schalter in die GUI einbauen?
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.401
Punkte für Reaktionen
1.213
Punkte
234
Leider funktioniert dies nicht.
Leider gibst du mir wenig an die Hand für eine Beurteilung des Problems.
  1. Was hast und wie hast du es denn bisher versucht?
  2. Sind die Inotify-tools installiert?
  3. Hast du das Startskript mit dem Parameter start aufgerufen?
  4. Was ist davon die Ausgabe?
  5. Pulsiert das Icon in der GUI Startseite?
  6. Hast du generell das synOCR Logging aktiviert (mindestens auf 1) und dadurch auch eine Datei inotify.log in deinem Log-Ordner? Was steht da drin?
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
145
Punkte für Reaktionen
41
Punkte
28
Which version of synOCR do you have installed?

@Gthorsten
Sollte das das Pythonskript erkennen oder müssen wir da einen Schalter in die GUI einbauen?
Also bei einem Teil, den ausgeschriebenen Datumswerten sollte es funktionieren.
Bei den mit reinen Zahlen kann ich es nicht immer unterscheiden.
Es gibt Fälle wo das nicht klappt.
Wenn ich die Zeitzone nehme und der User hier in Europa ist, aber amerikanische Werte haben will klappt das nicht.
Ein schalter wie "nutze m/d/y oder d/my" wäre da sicher sinnvoll
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.401
Punkte für Reaktionen
1.213
Punkte
234
Aber die Zeitzone wird mit ausgewertet? Das sollte ja schonmal ein Gros der Anwender zufriedenstellen. Vielleicht nutzt er ja auch das letzte Release. Dort geht das ja noch nicht.
Danke für dein Feedback.
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
145
Punkte für Reaktionen
41
Punkte
28
Nein bisher werte ich die Zeitzone nicht mit aus bei den numerischen Daten. Bei den alphanumerischen ist das mit eingebaut.
Kann das auch mal mit einbauen und dann kann der User das testen
 

jmanko16

Benutzer
Mitglied seit
17. Aug 2022
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Which version of synOCR do you have installed?


No, this has nothing to do with it. This language parameter only controls the text recognition. The date search runs separately.

@Gthorsten
Sollte das das Pythonskript erkennen oder müssen wir da einen Schalter in die GUI einbauen?
running 1.1.902

I do have the language to eng, but after doing multiple pdfs it seems this is only rarely happening, and some of my documents have the dates listed differently. I am not sure its an error but may be just interpreting the date as it sees it. May not use the auto re-date feature because of this.

Is there a list of oct options to reference?
Also is there a walkthrough or step by step to make a rule list so I apply several profiles to one generic inbox?

Thanks for your help
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
145
Punkte für Reaktionen
41
Punkte
28
running 1.1.902

I do have the language to eng, but after doing multiple pdfs it seems this is only rarely happening, and some of my documents have the dates listed differently. I am not sure its an error but may be just interpreting the date as it sees it. May not use the auto re-date feature because of this.

Is there a list of oct options to reference?
Also is there a walkthrough or step by step to make a rule list so I apply several profiles to one generic inbox?

Thanks for your help
What means dates listed differently?
Did you mean some have dd mm Yyyy and some mm dd Yyyy?
Actually for numeric dates I did not use you're local timezone for date interpretation.
But If you have both versions in you're timezone I have to think about a solution.

But actually I need some time because real life takes my time 😂
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.401
Punkte für Reaktionen
1.213
Punkte
234
First: please install the latest version from HERE (cphub.net doesn't work for synOCR for a long time). @Gthorsten is still working on an improved date detection for you. This will be included in a next snapshotbuild.

I do have the language to eng, but after doing multiple pdfs it seems this is only rarely happening, and some of my documents have the dates listed differently. I am not sure its an error but may be just interpreting the date as it sees it. May not use the auto re-date feature because of this.
As I wrote above, the OCRmyPDF language setting has no effect on date detection.

Is there a list of oct options to reference?
Also is there a walkthrough or step by step to make a rule list so I apply several profiles to one generic inbox?
Please have a look at the WIKI. Currently this is only available in German, but also a machine translation.
 

gergi

Benutzer
Mitglied seit
24. Jul 2020
Beiträge
10
Punkte für Reaktionen
1
Punkte
3
Hallo,

ich habe heute von DSM 6 auf DSM 7.1 aktualisiert.
Nachdem ein Fehler kam habe ich gedacht ich deinstalliere synOCR und installiere die DSM Version 7 neu.
Jetzt kommt allerdings der Fehler das synOCR nicht installiert werden kann.
2022-08-19 11_23_56-WildeHildeDS - Synology NAS und 6 weitere Seiten - Persönlich – Microsoft​...png

Muss ich noch irgendwelche Einstellungen anpassen?

Gruß Gergi
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.401
Punkte für Reaktionen
1.213
Punkte
234

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
145
Punkte für Reaktionen
41
Punkte
28
I finally got synocr running after some user error (beginner here!). When synocr looks into text for dates it is reversing the month and date (I am from US so typically documents are month/day/year....synocr seems to be finding and doing day/month/year.

Also is there a way to tell which template runs first, then second, etc. For example if I have my bills template first pull out all with the tag #bills, then the second template ocr whatever files are left but labeled with a different scheme how will I know which order they will get run as?
Hi jmanko16,

Could you please sent me some example text files with the date formats you're using?
You could create them with setting debug level in the ui to 2.
After that you'll find the Ocr text file in the log folder.
If there are personal information that you do not want to share, just delete them with a text editor.
Is it correct that
you're system language is set to english?
You can sent the text file to the upload link from @geimist . He will forward it to me
Br Thorsten
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.401
Punkte für Reaktionen
1.213
Punkte
234
Eigenartig … 🤷‍♂️
Wie greifst du auf die DS während der Installation zu? Lokal mit lokalem User? Wenn nicht, bitte nochmal so probieren. Wenn das nicht hilft, mit bitte mal das folgende Log schicken (Link in meiner Signatur): /var/log/packages/synOCR.log

Fall du Probleme mit dem Log hast, so gibt es auch ein schönes Tool von @Tommes zum Anzeigen ohne Kommadozeile: LogAnalysis
 
  • Love
  • Like
Reaktionen: Gthorsten und Tommes

Syngen

Benutzer
Mitglied seit
16. Jan 2014
Beiträge
9
Punkte für Reaktionen
2
Punkte
53
Hallo @geimist,

ich habe ein aktuelles Problem mit der Datumssuche. Ich habe eine Hotelrechnung vom 19.06.2022. Aber er findet in den OCR Daten immer das Datum 20.08.2022 obwohl dieses nirgendwo auf der Rechnung ist. Nur Heute gescannt. Ich habe dir das Logfile und die Rechnung per Upload gesendet.

Mit RegEx als Datumssuche funktioniert es, aber ich nutze Python, weil ich oft alphanumerische Daten habe.

SynOCR Version 1.2.0.11
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
145
Punkte für Reaktionen
41
Punkte
28
Hallo @geimist,

ich habe ein aktuelles Problem mit der Datumssuche. Ich habe eine Hotelrechnung vom 19.06.2022. Aber er findet in den OCR Daten immer das Datum 20.08.2022 obwohl dieses nirgendwo auf der Rechnung ist. Nur Heute gescannt. Ich habe dir das Logfile und die Rechnung per Upload gesendet.

Mit RegEx als Datumssuche funktioniert es, aber ich nutze Python, weil ich oft alphanumerische Daten habe.

SynOCR Version 1.2.0.11
Stephan leitest du mir das mal weiter ?
 
  • Like
Reaktionen: geimist

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
145
Punkte für Reaktionen
41
Punkte
28
Hallo @geimist,

ich habe ein aktuelles Problem mit der Datumssuche. Ich habe eine Hotelrechnung vom 19.06.2022. Aber er findet in den OCR Daten immer das Datum 20.08.2022 obwohl dieses nirgendwo auf der Rechnung ist. Nur Heute gescannt. Ich habe dir das Logfile und die Rechnung per Upload gesendet.

Mit RegEx als Datumssuche funktioniert es, aber ich nutze Python, weil ich oft alphanumerische Daten habe.

SynOCR Version 1.2.0.11
Hallo syngen,
Ich habe mir das mal angesehen, das sieht in dem files merkwürdig aus.
Das muss ich mir mal am PC, in der Entwicklungsumgebung ansehen.
Leider klappt das erst morgen Abend, weil ich am Wochenende unterwegs bin.
Viele Grüße
Thorsten
 
  • Like
Reaktionen: Syngen

Syngen

Benutzer
Mitglied seit
16. Jan 2014
Beiträge
9
Punkte für Reaktionen
2
Punkte
53
Hallo syngen,
Ich habe mir das mal angesehen, das sieht in dem files merkwürdig aus.
Das muss ich mir mal am PC, in der Entwicklungsumgebung ansehen.
Leider klappt das erst morgen Abend, weil ich am Wochenende unterwegs bin.
Viele Grüße
Thorsten
Hallo Thorsten,

alles klar. Ich habe gerade auch noch 2 weitere Dokumente mit gleichem Problem gefunden falls du noch mehr Beispiele benötigst.

Danke schon mal.

Gruß
Artur
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat 

 
 
  AdBlocker gefunden!

Du bist nicht hier, um Support für Adblocker zu erhalten. Dein Adblocker funktioniert bereits ;-)

Klar machen Adblocker einen guten Job, aber sie blockieren auch nützliche Funktionen.

Das Forum wird mit hohem technischen, zeitlichen und finanziellen Aufwand kostenfrei zur Verfügung gestellt. Wir zeigen keine offensive Werbung und bemühen uns um eine dezente Integration.

Bitte unterstütze dieses Forum, in dem du deinen Adblocker für diese Seite deaktivierst.

Du kannst uns auch über unseren Kaffeautomat einen Kaffe ausgeben oder ein PUR Abo abschließen und das Forum so werbefrei nutzen.

Vielen Dank für Deine Unterstützung!