synOCR synOCR - GUI für OCRmyPDF

Richie2000 · 07. Mai 2024

Ich möchte eine neue Regex vorstellen, die ich nach vielen Versuchen entwickelt habe. Diese erkennt Namen am Anfang eines Dokuments und ordnet sie als Tags zu. Dadurch lässt sich die Herkunft von Dateien einfach und robust nachverfolgen.

rule_1006:
tagname: §tagname_RegEx
tagname_RegEx: (?i)\b(?:[A-ZäöüßÄÖÜ][a-zäöüß]+\s+)?[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+|\b[A-ZäöüßÄÖÜ]\.\s+[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+\b
subrules:
- searchstring: \b(?:[A-ZäöüßÄÖÜ][a-zäöüß]+\s+)?[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+|\b[A-ZäöüßÄÖÜ]\.\s+[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+\b
searchtyp: contains
isRegEx: true

Erklärungen:

(?i): Aktiviert den case-insensitive Modus, um Groß- und Kleinschreibung zu ignorieren.
\b: Markiert eine Wortgrenze, um sicherzustellen, dass die Muster als getrennte Wörter behandelt werden.
(?:[A-ZäöüßÄÖÜ][a-zäöüß]+\s+)?: Optional kann ein oder mehrere Wörter vorangehen, die mit einem Großbuchstaben beginnen und von Kleinbuchstaben gefolgt werden, abgeschlossen durch mindestens ein Leerzeichen.
[A-ZäöüßÄÖÜ][a-zäöüß]+: Erfasst Wörter, die mit einem Großbuchstaben beginnen und von Kleinbuchstaben gefolgt werden.
(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+: Erfasst ein oder mehrere zusätzliche Wörter, die einem ersten Wort folgen müssen, jedes beginnend mit einem Großbuchstaben und gefolgt von Kleinbuchstaben.
|\b[A-ZäöüßÄÖÜ]\.\s+[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+\b: Erfasst Initialen, die von einem Punkt und mindestens einem Leerzeichen gefolgt werden, mit einem oder mehreren nachfolgenden Wörtern.

Beispiel und Verhalten

Erwünscht: "A. Müller" sollte erfasst werden als "A. Müller".
Erwünscht: "Alexander Müller" sollte erfasst werden als "Alexander Müller".
Erwünscht: "A. B. C. Müller" sollte erfasst werden, falls in Ihrer Datenstruktur Initialen gefolgt von mehreren Namen auftreten können.
Unerwünscht: Einzelwörter oder einzelne Buchstaben ohne nachfolgenden Punkt sollten nicht erfasst werden.

Richie2000 · 07. Mai 2024

plang.pl schrieb:
Da der Container nur temporär ist und aus synOCR selbst erzeugt wird, kann man da nix konfigurieren.

Es ist richtig, dass bei der Erzeugung eines Containers eine standardmäßige Konfiguration von Docker verwendet wird, welche normalerweise den Neustart des Containers vorsieht. Um das Problem mit den "Geister"-Containern zu adressieren, könnten Sie die Defaultkonfiguration von Docker anpassen, um das automatische Neustarten bei einem Absturz zu verhindern.

Falls dies nicht möglich ist, könnten wir alternativ ein Skript implementieren, das regelmäßig überprüft, ob es verwaiste Container gibt, und diese bei Bedarf automatisch entfernt. Eine weitere Option könnte sein, die Logs von synOCR zu überwachen, um festzustellen, ob es häufig zu Abstürzen kommt und ob diese spezifisch behandelt werden müssen.

plang.pl · 07. Mai 2024

Es gibt keine default-Einstellungen. Docker setzt, wenn man keinen betreffenden Parameter mitgibt, immer keine Option für automatischen Restart.

geimist · 07. Mai 2024

synOCR erstellt seine Container temporär mit dem Parameter --rm. Ich hatte da noch nie Probleme mit Geistercontainern. Im Fall von @Mamoro92 (#4.377)
tippe ich auf einen laufenden Prozess von synOCR aufgrund einer Vielzahl von Dokumenten. Leider gab es dazu keine Rückmeldung.

aHTo5Dh2LU1e69YcWwZg · 14. Mai 2024

Profilwechsel dauert sehr lange

Hallo Stephan,

ich hab die Version 1.4.5, aber auch schon bei 1.3 hatte ich das Problem, dass der Profilwechsel meist minutenlang dauert. Ob ein Profilwechsel vollzogen ist, kann ich nur erkennen, indem ich die angezeigten Felder mit dem Profilnamen vergleiche. Lässt sich der Wechsel irgendwie beschleunigen?

Sorry, falls das schon mal in einem Beitrag erwähnt wurde - ich hab im Forum gesucht und auch im Forum über die Suchmaschine, konnte aber nichts mit "synOCR" und "Profilwechsel" finden.

Gruß

geimist · 14. Mai 2024

@Tommes
Hast du eine Idee zu #4385?
Das ein Wechsel ein paar Sekunden dauert, ist normal (synOCR nutzt für die GUI ja kein Ajax /JS). Aber warum könnte dass Minuten dauern?

@aHTo5Dh2LU1e69YcWwZg
Wieviel Profile hast du angelegt? (wobei ich mir nicht wirklich vorstellen kann, dass das relevant ist)

Du könntest auch mal mit HyperBackup eine Sicherung des Paketes synOCR machen, es deinstallierten und wieder neuinstallieren. Und damit gehen mir schon die Ideen aus.

Tommes · 14. Mai 2024

@geimist
Das synOCR beim wechseln des Profils oder bei speichern der Konfiguration gerne mal ein paar Gedenksekunden einfordert, war glaub ich schon immer so. Ich habe dieses Verhalten immer auf den damit verbundenen Datenbankzugriff geschoben, ohne das jemals groß hinterfragt zu haben. Daher würde ich im Vorliegenden Fall auch hier zunächst den Datenbankzugriff als Schuldigen ausmachen wollen, aber das ist reine Spekulation.

Ich müsste mir den betreffende Code erstmal näher anschauen und evtl. Anhand einiger Tests versuchen, der Ursache auf die Schliche zu kommen. Da es sich hier aber eher um einen Einzelfall handelt, könnte sich das Identifizieren des Fehlers als schwierig herausstellen.

@aHTo5Dh2LU1e69YcWwZg (was ein Name)
Welches Synology NAS Modell besitzt du denn und welche DSM Version verwendest du?

Edit: Ah, sorry! Hatte auf meinem Handy deine Signatur nicht gleich gesehen. Daher korrigiere ich meine Frage. Um welche DS geht es dabei?

geimist · 14. Mai 2024

Tommes schrieb:
Ich habe dieses Verhalten immer auf den damit verbundenen Datenbankzugriff geschoben, ohne das jemals groß hinterfragt zu haben. Daher würde ich im Vorliegenden Fall auch hier zunächst den Datenbankzugriff als Schuldigen ausmachen wollen, aber das ist reine Spekulation.

Das würde ich wiederum ausschließen. Ich habe es jetzt nicht gemessen, aber erfahrungsgemäß sollten diese minimalen Abfragen im Millisekundenbereich stattfinden. Auch Seiten wechseln innerhalb von synOCR benötigt ja ein paar Augenblicke (übrigens immer mit einer gewissen I/O-Last). Ich meine mich zu erinnern, dass das bei deinem früheren SPK-Konzept immer so war. Später hattest du das ja umgebaut. Dieser Fall ist dennoch abnormal …

wegomyway · 14. Mai 2024

Tommes schrieb:
@geimist
Das synOCR beim wechseln des Profils oder bei speichern der Konfiguration gerne mal ein paar Gedenksekunden einfordert, war glaub ich schon immer so.

Kann ich definitiv bestätigen.
Einmal ungeduldig gewesen, Profile "zersemmelt" passiert mir dieses nun nicht mehr. Gefühlte 4 Sekunden plusminus 1

Tommes · 14. Mai 2024

geimist schrieb:
Das würde ich wiederum ausschließen.

Ich wollte dir damit jetzt auch nicht auf die Füße treten. Ich seh mir synOCR die Tage nochmal genauer an und schaue, ob ich irgendwo etwas tunen kann.

geimist · 14. Mai 2024

Ich hab das doch nicht als Kritik verstanden, sondern das ist nur meine Einschätzung.

ThePhantom79 · 21. Mai 2024

Hallo,

ich habe synocr seit egstern installiert und bin besgeistert. Nur die Ordnerüberwachung will nicht so recht ...
Sing ging kurz, als ich dann ein zweites Profil angelegt habe, ist das Verhalten seltsam:

- VOR dem zweiten Profil konnte ich noch einen Knopf sehen "Ordnerüberwachung restarten" (sinngemäß), der ist jetzt nicht mehr da
- nur noch ein Knopf "Ordnerüberwachung starten" ist zu sehen (drücke ich diesen, werden Dokumente, die schon da sind gescannt - neue, die später kommen abe rnicht)
- Auf der Oberfläche ist der große grüne Haken (nach einigen Minuten wandelt er sich dann manchmal doch in eine Sanduhr - blau hinterlegt)
- gehe ich mit der Maus über den Haken, steht hier "monitoring is not running"

Kann mir jemand auf die Sprünge helfen. was hier schief läuft? Bzw WO genau finde ich die Log-Dateien (steht leider nicht der Hilfe / in den FAQs direkt ersichtlich)

Danke!

geimist · 21. Mai 2024

Beim Starten der Ordnerüberwachung werden auch alle offenen Aufträge abgearbeitet.
Der Button "Ordnerüberwachung starten" bleibt also bestehen?

Du könntest mal das Paket im Paketzentrum stoppen und wieder starten.
Darüber hinaus gibt es auch das inotify.log im Logordner. Vielleicht macht uns das auch schlauer.

ThePhantom79 · 21. Mai 2024

geimist schrieb:
Der Button "Ordnerüberwachung starten" bleibt also bestehen?

Korrekt ...

Neustarten des Dienstes hat nix gebracht - auch nicht reinszall des inotify.

geimist schrieb:
Darüber hinaus gibt es auch das inotify.log im Logordner.

Wo stehen die Log-Dateien? Ich finde sie nicht - vielleicht bin ich zu blind. Leider steht auch in keiner Hilfe, wo diese liegen. ...

geimist · 21. Mai 2024

ThePhantom79 schrieb:
Wo stehen die Log-Dateien? Ich finde sie nicht - vielleicht bin ich zu blind. Leider steht auch in keiner Hilfe, wo diese liegen. ...

Den Pfad legst du selbst in jedem Profil individuell fest.

PS: bitte verifiziere die Ordner in den neuen Profilen und ob evtl. ein ungültiges Profil noch auf aktiv gestellt ist.

ThePhantom79 · 21. Mai 2024

Das wars - den hatte ich leer gelassen ...
Und im Log war der Fehler eindeutig. Im zweiten Profil war ein fehlerhafter Ordnerpfad. Jetzt klappts wunderbar. Danke!

guidovg · 22. Mai 2024

geimist schrieb:
Das würde ich wiederum ausschließen. Ich habe es jetzt nicht gemessen, aber erfahrungsgemäß sollten diese minimalen Abfragen im Millisekundenbereich stattfinden. Auch Seiten wechseln innerhalb von synOCR benötigt ja ein paar Augenblicke (übrigens immer mit einer gewissen I/O-Last). Ich meine mich zu erinnern, dass das bei deinem früheren SPK-Konzept immer so war. Später hattest du das ja umgebaut. Dieser Fall ist dennoch abnormal …

Moin,
da würde ich mich gerne mal mit ranhängen. SynOCR funktioniert bei mir einwandfrei, aber die Konfiguration der Profile über die GUI ist bei mir auch super träge. Nach dem Klick auf den Speichern Button - gerade eben dreimal getestet, bei sehr geringer Systemlast - vergehen jedesmal ca. 13 Sekunden.
Das ist kein Drama, wenn man sich dran gewöhnt hat, wenn ich aber etwas zur Lösung beitragen kann, sehr gerne.

Max91 · 10. Juni 2024

Hallo Zusammen,

ich habe schon bereits mit dem Stichwort synOCR nach Posts gesucht und nichts passendes gefunden.

Ich habe 3 Profile und jew. 3 Ordernstrukturen (Input, Backup, Output) und übernehme gerade meine Altdaten um eine einheitlichen Stand der Daten zu erhalten (parallel optimiere ich laufend die YAML).

Dabei ist mir aufgefallen, dass manche Dateien (meist von Self Service Portalen) nicht verarbeitet werden können und in den Errorfiles-Ordner landen Aktuell prüfe ich die Ordner regelmäßig um die korrekte Datenübernahme sicherzustellen. Jedoch werde ich das später im Betrieb nicht mehr so regelmäßig machen. Im Betrieb sollen vom "Anwender" nur die Output Ordner sichtbar sein.

Nun meine Frage:
Gibt es bereits ein Programm/Anwendung um Ordner zu überwachen? Mir schwebt eine Benachrichtigung (idealerweise E-Mail) vor, sobald eine neue Datei im Errorfiles-Ordner landet.

Hat das bereits jemand umgesetzt bzw. ist das eventl. mit Boardmitteln möglich?

Viele Grüße
Max

atzebonn · 10. Juni 2024

So, nun auch hier an dieser Stelle meinen herzlichsten Dank für Eure tolle Arbeit !

Da ich nicht alle Mitarbeitenden kenne aber auch keinen vergessen will, bedanke ich mich einfach bei Allen, die hier ihre Arbeit für die Allgemeinheit zur Verfügung stellen.

Ich finde das Programm synOCR einfach genial - und das beste ist, ich habe es beim ersten Installationsversuch sofort ans Laufen bekommen. Das ist unter anderem Eurer sehr verständlichen Anleitung zu verdanken.

Ich bin erst seit Anfang des Jahres im Besitz eines NAS und dementsprechend Anfänger.

Aber was ich in dieser kurzen Zeit schon alles gelernt und erfahren habe, das ist enorm.

Ich hoffe das geht weiter so und freue mich auf weitere geistige Ergüsse Eurerseits ! Vielleicht hab ich ja auch mal einen

Gruß - Atze

P.S.: Die komplette Durcharbeitung der 220 Seiten dieses Threads hab ich mir für den nächsten Urlaub vorgenommen. Bin froh, das es erstmal läuft.

aHTo5Dh2LU1e69YcWwZg · 12. Juni 2024

Danke für die Antworten und sorry, hab wieder mal verpennt dass mir jemand geantwortet hat.

geimist schrieb:
@aHTo5Dh2LU1e69YcWwZg
Wieviel Profile hast du angelegt? (wobei ich mir nicht wirklich vorstellen kann, dass das relevant ist)

Du könntest auch mal mit HyperBackup eine Sicherung des Paketes synOCR machen, es deinstallierten und wieder neuinstallieren. Und damit gehen mir schon die Ideen aus.

Ich hab 6 Profile, wobei das Verhalten auch schon so war als ich noch 3 Profile hatte.
Da ich in dem Thema schon länger nicht mehr drin war, hab ich heute nochmal gemessen: Auf der DS415+ mit DSM 7.1 (2 Profile) dauert der Profilwechsel 15 Sec. und auf der DS1522+ (6 Profile) mit DSM 7.2 scheint es heute mit 39 Sec auch recht flott zu laufen.

Ich hatte das Thema aufgegriffen, da ich mehrere Profile bearbeiten/anlegen musste. Kann es sein, dass sich die Zeit verlängert je mehr Profilwechsel man durchführt?

Tommes schrieb:
@aHTo5Dh2LU1e69YcWwZg (was ein Name)
Welches Synology NAS Modell besitzt du denn und welche DSM Version verwendest du?

Edit: Ah, sorry! Hatte auf meinem Handy deine Signatur nicht gleich gesehen. Daher korrigiere ich meine Frage. Um welche DS geht es dabei?

Das ist die DS1522+

PS: SynORC ist auf der DS415 ist neu eingerichtet und läuft auf beiden Systemen zuverlässig.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Beispiel und Verhalten​

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat

Beispiel und Verhalten