synOCR synOCR - GUI für OCRmyPDF

Richie2000

Benutzer
Mitglied seit
30. Apr 2024
Beiträge
3
Punkte für Reaktionen
1
Punkte
3
Ich möchte eine neue Regex vorstellen, die ich nach vielen Versuchen entwickelt habe. Diese erkennt Namen am Anfang eines Dokuments und ordnet sie als Tags zu. Dadurch lässt sich die Herkunft von Dateien einfach und robust nachverfolgen.

rule_1006:
tagname: §tagname_RegEx
tagname_RegEx: (?i)\b(?:[A-ZäöüßÄÖÜ][a-zäöüß]+\s+)?[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+|\b[A-ZäöüßÄÖÜ]\.\s+[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+\b
subrules:
- searchstring: \b(?:[A-ZäöüßÄÖÜ][a-zäöüß]+\s+)?[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+|\b[A-ZäöüßÄÖÜ]\.\s+[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+\b
searchtyp: contains
isRegEx: true

Erklärungen:

  • (?i): Aktiviert den case-insensitive Modus, um Groß- und Kleinschreibung zu ignorieren.
  • \b: Markiert eine Wortgrenze, um sicherzustellen, dass die Muster als getrennte Wörter behandelt werden.
  • (?:[A-ZäöüßÄÖÜ][a-zäöüß]+\s+)?: Optional kann ein oder mehrere Wörter vorangehen, die mit einem Großbuchstaben beginnen und von Kleinbuchstaben gefolgt werden, abgeschlossen durch mindestens ein Leerzeichen.
  • [A-ZäöüßÄÖÜ][a-zäöüß]+: Erfasst Wörter, die mit einem Großbuchstaben beginnen und von Kleinbuchstaben gefolgt werden.
  • (?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+: Erfasst ein oder mehrere zusätzliche Wörter, die einem ersten Wort folgen müssen, jedes beginnend mit einem Großbuchstaben und gefolgt von Kleinbuchstaben.
  • |\b[A-ZäöüßÄÖÜ]\.\s+[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+\b: Erfasst Initialen, die von einem Punkt und mindestens einem Leerzeichen gefolgt werden, mit einem oder mehreren nachfolgenden Wörtern.

Beispiel und Verhalten​

  • Erwünscht: "A. Müller" sollte erfasst werden als "A. Müller".
  • Erwünscht: "Alexander Müller" sollte erfasst werden als "Alexander Müller".
  • Erwünscht: "A. B. C. Müller" sollte erfasst werden, falls in Ihrer Datenstruktur Initialen gefolgt von mehreren Namen auftreten können.
  • Unerwünscht: Einzelwörter oder einzelne Buchstaben ohne nachfolgenden Punkt sollten nicht erfasst werden.
 
  • Like
Reaktionen: plang.pl

Richie2000

Benutzer
Mitglied seit
30. Apr 2024
Beiträge
3
Punkte für Reaktionen
1
Punkte
3
Da der Container nur temporär ist und aus synOCR selbst erzeugt wird, kann man da nix konfigurieren.
Es ist richtig, dass bei der Erzeugung eines Containers eine standardmäßige Konfiguration von Docker verwendet wird, welche normalerweise den Neustart des Containers vorsieht. Um das Problem mit den "Geister"-Containern zu adressieren, könnten Sie die Defaultkonfiguration von Docker anpassen, um das automatische Neustarten bei einem Absturz zu verhindern.

Falls dies nicht möglich ist, könnten wir alternativ ein Skript implementieren, das regelmäßig überprüft, ob es verwaiste Container gibt, und diese bei Bedarf automatisch entfernt. Eine weitere Option könnte sein, die Logs von synOCR zu überwachen, um festzustellen, ob es häufig zu Abstürzen kommt und ob diese spezifisch behandelt werden müssen.
 

plang.pl

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
28. Okt 2020
Beiträge
14.404
Punkte für Reaktionen
5.030
Punkte
544
Es gibt keine default-Einstellungen. Docker setzt, wenn man keinen betreffenden Parameter mitgibt, immer keine Option für automatischen Restart.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.394
Punkte für Reaktionen
1.210
Punkte
234
synOCR erstellt seine Container temporär mit dem Parameter --rm. Ich hatte da noch nie Probleme mit Geistercontainern. Im Fall von @Mamoro92 (#4.377)
tippe ich auf einen laufenden Prozess von synOCR aufgrund einer Vielzahl von Dokumenten. Leider gab es dazu keine Rückmeldung.
 
  • Like
Reaktionen: plang.pl


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat 

 
 
  AdBlocker gefunden!

Du bist nicht hier, um Support für Adblocker zu erhalten. Dein Adblocker funktioniert bereits ;-)

Klar machen Adblocker einen guten Job, aber sie blockieren auch nützliche Funktionen.

Das Forum wird mit hohem technischen, zeitlichen und finanziellen Aufwand kostenfrei zur Verfügung gestellt. Wir zeigen keine offensive Werbung und bemühen uns um eine dezente Integration.

Bitte unterstütze dieses Forum, in dem du deinen Adblocker für diese Seite deaktivierst.

Du kannst uns auch über unseren Kaffeautomat einen Kaffe ausgeben oder ein PUR Abo abschließen und das Forum so werbefrei nutzen.

Vielen Dank für Deine Unterstützung!