synOCR synOCR - GUI für OCRmyPDF

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Hi!
Auch zur Datumssuche (Python aktiv), weils gerade bei mir aktuell ist. Kein min oder max Datum eingestellt. Des Weiteren ist eingestellt, dass immer das zuerst erkannte Datum verwendet werden soll..

Ich habe PDFs da findet das OCR das Datum bei (1)

1679826936808.png

und ich habe PDFs, da findet das OCR das Datum bei (2)
1679826716087.png

Wie kommt das zustande? Kann ich da irgendwie beeinflussen?
Beim zweiten Dokument muss ich immer per Hand den Dateinamen abschließend korrigieren.

Ach ja, im detaillierten Log, wird beides Male der April korrekt erkannt, auch die jeweilige Jahreszahl 2017 bzw. 2018.

Code:
2023-03-26 12:35:08,600 - Line from File: Tel.   0800 4 100104 im April 2018
2023-03-26 12:35:24,516 - Line from File: Tel. 0800 4 100104         im April 2017
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Also wenn bei beiden das korrekte Datum im log steht, kann ich mir das im Moment nicht erklären. Da muss ich heute Abend mal in den Code schauen. Bin im Moment unterwegs und nur am Handy.
Bin mir unsicher ob da noch eine Additive Prüfung vorhanden ist.
Beide Dokumente, sind alte Dokumente die du jetzt gescannt hast?
 
  • Like
Reaktionen: Yippie

DeeKay1

Benutzer
Mitglied seit
20. Jun 2020
Beiträge
100
Punkte für Reaktionen
23
Punkte
24
@Yippie
Was hast du denn bei der Option in den Einstellungen für das Profil gesetzt?
1679827917658.png

EDIT:
Vergiss die Frage. Er nutzt ja das Datum in der Zukunft.
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Trotzdem, hier noch nachgereicht:
1679831073646.png
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Beide Dokumente, sind alte Dokumente die du jetzt gescannt hast?
ja, exakt! Wie oben in den Screenshots ersichtlich aus 2017 bzw. 2018. Ich räume derzeit ein wenig meine Leitz-Ordner auf scanne alles alte ein...
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Weitere Frage, habs in den 178 Seiten nichts passendes gefunden: Leere Seiten kann synOCR bzw. ocrmypdf bisher nicht entfernen, korrekt?
 

Schrotti

Benutzer
Mitglied seit
10. Okt 2020
Beiträge
22
Punkte für Reaktionen
3
Punkte
3
Probieren. Ich gehe aber davon aus, dass du synOCR / bzw. die Überwachung durch die Inotfy-Tools neustarten musst, wenn du den Stick zwischenzeitlich mal trennst. Über den Aufgabenplaner sollte es lediglich eine Fehlermeldung geben, weil der Quellordner nicht passt.
Nee geht nicht.

---------- START MONITORING ---------- 2023-03-26_15-17-34 ----------
loop count: 11
! ! ! ERROR: failed to start monitoring after 11 trys
does not run - start monitoring ...

Trotzdem Danke
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
ja, exakt! Wie oben in den Screenshots ersichtlich aus 2017 bzw. 2018. Ich räume derzeit ein wenig meine Leitz-Ordner auf scanne alles alte ein...
Habe dank der logs und txt Dateien von yippie einen Fehler gefunden.
Wird dann in der nächsten Version mit gefixed....
 

erd

Benutzer
Mitglied seit
03. Aug 2020
Beiträge
7
Punkte für Reaktionen
0
Punkte
1
Hallo zusammen, ich bin leider kein RegEx Profi, aber vielleicht könnte mir jemand helfen bei meiner Challenge:

Ziel ist es, über RegEx den gesamten Betreff (als Tag) des Dokuments zu ermitteln.

Dies sehr allgemein zu definieren, ist sicher kaum möglich (also für alle Art Anschreiben).
Aber für bestimmte Dokumente kann ich bestimmte Muster erkennen, z.B. dass auf der vorherigen Zeile die Kundennummer (eine ganz konkrete) genannt ist und nach dem Betreff der Brief mit "Sehr geehrter Herr ..." beginnt.

.....
Bei Kontakt bitte nennen
Versichertennr.: X**********
Der Betreff dieses Briefes
Sehr geehrter Herr *******,
.....

Viele Grüße, erd
 
Zuletzt bearbeitet:

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
880
Punkte für Reaktionen
179
Punkte
63
  • Like
Reaktionen: erd und geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.508
Punkte für Reaktionen
1.344
Punkte
234
Weitere Frage, habs in den 178 Seiten nichts passendes gefunden: Leere Seiten kann synOCR bzw. ocrmypdf bisher nicht entfernen, korrekt?
Nein, ich habe noch keine (sichere) Lösung dafür gefunden.
 
  • Like
Reaktionen: Yippie

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Dacht ich mir schon, denn alles was ich bisher dazu im Netz gefunden habe, sagt ähnliches zum Thema.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.508
Punkte für Reaktionen
1.344
Punkte
234
Der einfachste Weg wäre, zu prüfen, ob Text nach dem OCR enthalten ist. Nur doof, wenn auf der Seite lediglich ein Bild ist. Man müsste dafür den Deckungsgrad der Seite detektieren und mit einem Schwellwert entscheiden, ob die Seite leer ist. Möglicherweise lässt sich etwas mit PythonMagick realisieren.

Also, falls jemand mal was basteln will … :cool:
 
  • Like
Reaktionen: Gthorsten

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Na ja ein Kriterium kann ja schon Mal sein, wenn die Anzahl an erkannten Buchstaben einen bestimmten Wert unterschreiten, oder?
Bei einer leeren Seite dürfte doch rein gar kein Buchstabe im entsprechenden PDF Layer zu finden sein. Oder stell ich mir das zu einfach vor?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.508
Punkte für Reaktionen
1.344
Punkte
234
Ich hab mal für das Brainstorming ein Issue aufgemacht. Wer Ideen und Vorschläge zur Leerseitenerkennung hat, kann diese ja dort hinzufügen.
 

sub2010

Benutzer
Mitglied seit
19. Jan 2021
Beiträge
105
Punkte für Reaktionen
7
Punkte
18
Hallo Zusammen,

dass DSM Beta Upgrade 7.2 steht vor der Tür. Dort steht ein Docker Update an. Kann ich das Upgrade durchführen ohne Probleme mit dem OCR Scanner zu bekommen?
Viele Grüße
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.508
Punkte für Reaktionen
1.344
Punkte
234
synOCR läuft auch mit der aktuellen Version unter DSM 7.2. Allerdings mit der Einschränkung, dass man es in einem neuen Fenster öffnen muss. @Tommes hat uns eine Lösung bereitgestellt, sodass es mit dem nächsten Release auch wieder wie bisher funktioniert. Mit der aktuellen Beta funktioniert das bereits jetzt schon.
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.185
Punkte für Reaktionen
1.014
Punkte
224
Ich verstehe @sub2010 so, dass er sich die Frage stellt, ob sich für ihn irgendetwas ändert, weil Docker ja ab Version 7.2 Container Manager heißt und etwas anders aussieht, dürfte aber wahrscheinlich auch kein Problem sein, weil die ganzen Aufrufe der Container finden ja weiterhin im Hintergrund statt, oder?
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat