synOCR synOCR - GUI für OCRmyPDF

Yippie · 26. März 2023

Hi!
Auch zur Datumssuche (Python aktiv), weils gerade bei mir aktuell ist. Kein min oder max Datum eingestellt. Des Weiteren ist eingestellt, dass immer das zuerst erkannte Datum verwendet werden soll..

Ich habe PDFs da findet das OCR das Datum bei (1)

und ich habe PDFs, da findet das OCR das Datum bei (2)

Wie kommt das zustande? Kann ich da irgendwie beeinflussen?
Beim zweiten Dokument muss ich immer per Hand den Dateinamen abschließend korrigieren.

Ach ja, im detaillierten Log, wird beides Male der April korrekt erkannt, auch die jeweilige Jahreszahl 2017 bzw. 2018.

Code:

2023-03-26 12:35:08,600 - Line from File: Tel.   0800 4 100104 im April 2018
2023-03-26 12:35:24,516 - Line from File: Tel. 0800 4 100104         im April 2017

Gthorsten · 26. März 2023

Also wenn bei beiden das korrekte Datum im log steht, kann ich mir das im Moment nicht erklären. Da muss ich heute Abend mal in den Code schauen. Bin im Moment unterwegs und nur am Handy.
Bin mir unsicher ob da noch eine Additive Prüfung vorhanden ist.
Beide Dokumente, sind alte Dokumente die du jetzt gescannt hast?

DeeKay1 · 26. März 2023

@Yippie
Was hast du denn bei der Option in den Einstellungen für das Profil gesetzt?

EDIT:
Vergiss die Frage. Er nutzt ja das Datum in der Zukunft.

Yippie · 26. März 2023

Trotzdem, hier noch nachgereicht:

Yippie · 26. März 2023

Gthorsten schrieb:
Beide Dokumente, sind alte Dokumente die du jetzt gescannt hast?

ja, exakt! Wie oben in den Screenshots ersichtlich aus 2017 bzw. 2018. Ich räume derzeit ein wenig meine Leitz-Ordner auf scanne alles alte ein...

Yippie · 26. März 2023

Weitere Frage, habs in den 178 Seiten nichts passendes gefunden: Leere Seiten kann synOCR bzw. ocrmypdf bisher nicht entfernen, korrekt?

Schrotti · 26. März 2023

geimist schrieb:
Probieren. Ich gehe aber davon aus, dass du synOCR / bzw. die Überwachung durch die Inotfy-Tools neustarten musst, wenn du den Stick zwischenzeitlich mal trennst. Über den Aufgabenplaner sollte es lediglich eine Fehlermeldung geben, weil der Quellordner nicht passt.

Nee geht nicht.

---------- START MONITORING ---------- 2023-03-26_15-17-34 ----------
loop count: 11
! ! ! ERROR: failed to start monitoring after 11 trys
does not run - start monitoring ...

Trotzdem Danke

Gthorsten · 26. März 2023

Yippie schrieb:
ja, exakt! Wie oben in den Screenshots ersichtlich aus 2017 bzw. 2018. Ich räume derzeit ein wenig meine Leitz-Ordner auf scanne alles alte ein...

Habe dank der logs und txt Dateien von yippie einen Fehler gefunden.
Wird dann in der nächsten Version mit gefixed....

erd · 28. März 2023

Hallo zusammen, ich bin leider kein RegEx Profi, aber vielleicht könnte mir jemand helfen bei meiner Challenge:

Ziel ist es, über RegEx den gesamten Betreff (als Tag) des Dokuments zu ermitteln.

Dies sehr allgemein zu definieren, ist sicher kaum möglich (also für alle Art Anschreiben).
Aber für bestimmte Dokumente kann ich bestimmte Muster erkennen, z.B. dass auf der vorherigen Zeile die Kundennummer (eine ganz konkrete) genannt ist und nach dem Betreff der Brief mit "Sehr geehrter Herr ..." beginnt.

.....
Bei Kontakt bitte nennen
Versichertennr.: X**********
Der Betreff dieses Briefes
Sehr geehrter Herr *******,
.....

Viele Grüße, erd

Struppix · 29. März 2023

erd schrieb:
Ziel ist es, über RegEx den gesamten Betreff (als Tag) des Dokuments zu ermitteln.

Hallo erd,

ich antworte mal hier:

Gruß Karsten

geimist · 29. März 2023

Yippie schrieb:
Weitere Frage, habs in den 178 Seiten nichts passendes gefunden: Leere Seiten kann synOCR bzw. ocrmypdf bisher nicht entfernen, korrekt?

Nein, ich habe noch keine (sichere) Lösung dafür gefunden.

Yippie · 29. März 2023

Dacht ich mir schon, denn alles was ich bisher dazu im Netz gefunden habe, sagt ähnliches zum Thema.

geimist · 29. März 2023

Der einfachste Weg wäre, zu prüfen, ob Text nach dem OCR enthalten ist. Nur doof, wenn auf der Seite lediglich ein Bild ist. Man müsste dafür den Deckungsgrad der Seite detektieren und mit einem Schwellwert entscheiden, ob die Seite leer ist. Möglicherweise lässt sich etwas mit PythonMagick realisieren.

Also, falls jemand mal was basteln will …

Gthorsten · 31. März 2023

Ich gucke mal

Yippie · 31. März 2023

Na ja ein Kriterium kann ja schon Mal sein, wenn die Anzahl an erkannten Buchstaben einen bestimmten Wert unterschreiten, oder?
Bei einer leeren Seite dürfte doch rein gar kein Buchstabe im entsprechenden PDF Layer zu finden sein. Oder stell ich mir das zu einfach vor?

Gthorsten · 31. März 2023

Nun ja, aber wenn ein bild vorhanden ist klappt das nicht

geimist · 31. März 2023

Ich hab mal für das Brainstorming ein Issue aufgemacht. Wer Ideen und Vorschläge zur Leerseitenerkennung hat, kann diese ja dort hinzufügen.

sub2010 · 03. Apr. 2023

Hallo Zusammen,

dass DSM Beta Upgrade 7.2 steht vor der Tür. Dort steht ein Docker Update an. Kann ich das Upgrade durchführen ohne Probleme mit dem OCR Scanner zu bekommen?
Viele Grüße

geimist · 03. Apr. 2023

synOCR läuft auch mit der aktuellen Version unter DSM 7.2. Allerdings mit der Einschränkung, dass man es in einem neuen Fenster öffnen muss. @Tommes hat uns eine Lösung bereitgestellt, sodass es mit dem nächsten Release auch wieder wie bisher funktioniert. Mit der aktuellen Beta funktioniert das bereits jetzt schon.

Monacum · 03. Apr. 2023

Ich verstehe @sub2010 so, dass er sich die Frage stellt, ob sich für ihn irgendetwas ändert, weil Docker ja ab Version 7.2 Container Manager heißt und etwas anders aussieht, dürfte aber wahrscheinlich auch kein Problem sein, weil die ganzen Aufrufe der Container finden ja weiterhin im Hintergrund statt, oder?

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat