synOCR synOCR - GUI für OCRmyPDF

Richie2000

Benutzer
Mitglied seit
30. Apr 2024
Beiträge
3
Punkte für Reaktionen
1
Punkte
3
Ich möchte eine neue Regex vorstellen, die ich nach vielen Versuchen entwickelt habe. Diese erkennt Namen am Anfang eines Dokuments und ordnet sie als Tags zu. Dadurch lässt sich die Herkunft von Dateien einfach und robust nachverfolgen.

rule_1006:
tagname: §tagname_RegEx
tagname_RegEx: (?i)\b(?:[A-ZäöüßÄÖÜ][a-zäöüß]+\s+)?[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+|\b[A-ZäöüßÄÖÜ]\.\s+[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+\b
subrules:
- searchstring: \b(?:[A-ZäöüßÄÖÜ][a-zäöüß]+\s+)?[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+|\b[A-ZäöüßÄÖÜ]\.\s+[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+\b
searchtyp: contains
isRegEx: true

Erklärungen:

  • (?i): Aktiviert den case-insensitive Modus, um Groß- und Kleinschreibung zu ignorieren.
  • \b: Markiert eine Wortgrenze, um sicherzustellen, dass die Muster als getrennte Wörter behandelt werden.
  • (?:[A-ZäöüßÄÖÜ][a-zäöüß]+\s+)?: Optional kann ein oder mehrere Wörter vorangehen, die mit einem Großbuchstaben beginnen und von Kleinbuchstaben gefolgt werden, abgeschlossen durch mindestens ein Leerzeichen.
  • [A-ZäöüßÄÖÜ][a-zäöüß]+: Erfasst Wörter, die mit einem Großbuchstaben beginnen und von Kleinbuchstaben gefolgt werden.
  • (?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+: Erfasst ein oder mehrere zusätzliche Wörter, die einem ersten Wort folgen müssen, jedes beginnend mit einem Großbuchstaben und gefolgt von Kleinbuchstaben.
  • |\b[A-ZäöüßÄÖÜ]\.\s+[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+\b: Erfasst Initialen, die von einem Punkt und mindestens einem Leerzeichen gefolgt werden, mit einem oder mehreren nachfolgenden Wörtern.

Beispiel und Verhalten​

  • Erwünscht: "A. Müller" sollte erfasst werden als "A. Müller".
  • Erwünscht: "Alexander Müller" sollte erfasst werden als "Alexander Müller".
  • Erwünscht: "A. B. C. Müller" sollte erfasst werden, falls in Ihrer Datenstruktur Initialen gefolgt von mehreren Namen auftreten können.
  • Unerwünscht: Einzelwörter oder einzelne Buchstaben ohne nachfolgenden Punkt sollten nicht erfasst werden.
 
  • Like
Reaktionen: plang.pl

Richie2000

Benutzer
Mitglied seit
30. Apr 2024
Beiträge
3
Punkte für Reaktionen
1
Punkte
3
Da der Container nur temporär ist und aus synOCR selbst erzeugt wird, kann man da nix konfigurieren.
Es ist richtig, dass bei der Erzeugung eines Containers eine standardmäßige Konfiguration von Docker verwendet wird, welche normalerweise den Neustart des Containers vorsieht. Um das Problem mit den "Geister"-Containern zu adressieren, könnten Sie die Defaultkonfiguration von Docker anpassen, um das automatische Neustarten bei einem Absturz zu verhindern.

Falls dies nicht möglich ist, könnten wir alternativ ein Skript implementieren, das regelmäßig überprüft, ob es verwaiste Container gibt, und diese bei Bedarf automatisch entfernt. Eine weitere Option könnte sein, die Logs von synOCR zu überwachen, um festzustellen, ob es häufig zu Abstürzen kommt und ob diese spezifisch behandelt werden müssen.
 

plang.pl

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
28. Okt 2020
Beiträge
14.447
Punkte für Reaktionen
5.049
Punkte
544
Es gibt keine default-Einstellungen. Docker setzt, wenn man keinen betreffenden Parameter mitgibt, immer keine Option für automatischen Restart.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.399
Punkte für Reaktionen
1.211
Punkte
234
synOCR erstellt seine Container temporär mit dem Parameter --rm. Ich hatte da noch nie Probleme mit Geistercontainern. Im Fall von @Mamoro92 (#4.377)
tippe ich auf einen laufenden Prozess von synOCR aufgrund einer Vielzahl von Dokumenten. Leider gab es dazu keine Rückmeldung.
 
  • Like
Reaktionen: plang.pl
Mitglied seit
30. Nov 2014
Beiträge
45
Punkte für Reaktionen
3
Punkte
8
Profilwechsel dauert sehr lange

Hallo Stephan,

ich hab die Version 1.4.5, aber auch schon bei 1.3 hatte ich das Problem, dass der Profilwechsel meist minutenlang dauert. Ob ein Profilwechsel vollzogen ist, kann ich nur erkennen, indem ich die angezeigten Felder mit dem Profilnamen vergleiche. Lässt sich der Wechsel irgendwie beschleunigen?

Sorry, falls das schon mal in einem Beitrag erwähnt wurde - ich hab im Forum gesucht und auch im Forum über die Suchmaschine, konnte aber nichts mit "synOCR" und "Profilwechsel" finden.

Gruß
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.399
Punkte für Reaktionen
1.211
Punkte
234
@Tommes
Hast du eine Idee zu #4385?
Das ein Wechsel ein paar Sekunden dauert, ist normal (synOCR nutzt für die GUI ja kein Ajax /JS). Aber warum könnte dass Minuten dauern?

@aHTo5Dh2LU1e69YcWwZg
Wieviel Profile hast du angelegt? (wobei ich mir nicht wirklich vorstellen kann, dass das relevant ist)

Du könntest auch mal mit HyperBackup eine Sicherung des Paketes synOCR machen, es deinstallierten und wieder neuinstallieren. Und damit gehen mir schon die Ideen aus.
 

Tommes

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
26. Okt 2009
Beiträge
9.184
Punkte für Reaktionen
1.135
Punkte
314
@geimist
Das synOCR beim wechseln des Profils oder bei speichern der Konfiguration gerne mal ein paar Gedenksekunden einfordert, war glaub ich schon immer so. Ich habe dieses Verhalten immer auf den damit verbundenen Datenbankzugriff geschoben, ohne das jemals groß hinterfragt zu haben. Daher würde ich im Vorliegenden Fall auch hier zunächst den Datenbankzugriff als Schuldigen ausmachen wollen, aber das ist reine Spekulation.

Ich müsste mir den betreffende Code erstmal näher anschauen und evtl. Anhand einiger Tests versuchen, der Ursache auf die Schliche zu kommen. Da es sich hier aber eher um einen Einzelfall handelt, könnte sich das Identifizieren des Fehlers als schwierig herausstellen.

@aHTo5Dh2LU1e69YcWwZg (was ein Name)
Welches Synology NAS Modell besitzt du denn und welche DSM Version verwendest du?

Edit: Ah, sorry! Hatte auf meinem Handy deine Signatur nicht gleich gesehen. Daher korrigiere ich meine Frage. Um welche DS geht es dabei?
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.399
Punkte für Reaktionen
1.211
Punkte
234
Ich habe dieses Verhalten immer auf den damit verbundenen Datenbankzugriff geschoben, ohne das jemals groß hinterfragt zu haben. Daher würde ich im Vorliegenden Fall auch hier zunächst den Datenbankzugriff als Schuldigen ausmachen wollen, aber das ist reine Spekulation.
Das würde ich wiederum ausschließen. Ich habe es jetzt nicht gemessen, aber erfahrungsgemäß sollten diese minimalen Abfragen im Millisekundenbereich stattfinden. Auch Seiten wechseln innerhalb von synOCR benötigt ja ein paar Augenblicke (übrigens immer mit einer gewissen I/O-Last). Ich meine mich zu erinnern, dass das bei deinem früheren SPK-Konzept immer so war. Später hattest du das ja umgebaut. Dieser Fall ist dennoch abnormal …
 

wegomyway

Benutzer
Mitglied seit
03. Aug 2022
Beiträge
439
Punkte für Reaktionen
190
Punkte
99
@geimist
Das synOCR beim wechseln des Profils oder bei speichern der Konfiguration gerne mal ein paar Gedenksekunden einfordert, war glaub ich schon immer so.
Kann ich definitiv bestätigen.
Einmal ungeduldig gewesen, Profile "zersemmelt" passiert mir dieses nun nicht mehr. Gefühlte 4 Sekunden plusminus 1
 

Tommes

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
26. Okt 2009
Beiträge
9.184
Punkte für Reaktionen
1.135
Punkte
314
Das würde ich wiederum ausschließen.
Ich wollte dir damit jetzt auch nicht auf die Füße treten. Ich seh mir synOCR die Tage nochmal genauer an und schaue, ob ich irgendwo etwas tunen kann.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat 

 
 
  AdBlocker gefunden!

Du bist nicht hier, um Support für Adblocker zu erhalten. Dein Adblocker funktioniert bereits ;-)

Klar machen Adblocker einen guten Job, aber sie blockieren auch nützliche Funktionen.

Das Forum wird mit hohem technischen, zeitlichen und finanziellen Aufwand kostenfrei zur Verfügung gestellt. Wir zeigen keine offensive Werbung und bemühen uns um eine dezente Integration.

Bitte unterstütze dieses Forum, in dem du deinen Adblocker für diese Seite deaktivierst.

Du kannst uns auch über unseren Kaffeautomat einen Kaffe ausgeben oder ein PUR Abo abschließen und das Forum so werbefrei nutzen.

Vielen Dank für Deine Unterstützung!