synOCR synOCR - GUI für OCRmyPDF

Richie2000

Benutzer
Mitglied seit
30. Apr 2024
Beiträge
3
Punkte für Reaktionen
3
Punkte
3
Ich möchte eine neue Regex vorstellen, die ich nach vielen Versuchen entwickelt habe. Diese erkennt Namen am Anfang eines Dokuments und ordnet sie als Tags zu. Dadurch lässt sich die Herkunft von Dateien einfach und robust nachverfolgen.

rule_1006:
tagname: §tagname_RegEx
tagname_RegEx: (?i)\b(?:[A-ZäöüßÄÖÜ][a-zäöüß]+\s+)?[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+|\b[A-ZäöüßÄÖÜ]\.\s+[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+\b
subrules:
- searchstring: \b(?:[A-ZäöüßÄÖÜ][a-zäöüß]+\s+)?[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+|\b[A-ZäöüßÄÖÜ]\.\s+[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+\b
searchtyp: contains
isRegEx: true

Erklärungen:

  • (?i): Aktiviert den case-insensitive Modus, um Groß- und Kleinschreibung zu ignorieren.
  • \b: Markiert eine Wortgrenze, um sicherzustellen, dass die Muster als getrennte Wörter behandelt werden.
  • (?:[A-ZäöüßÄÖÜ][a-zäöüß]+\s+)?: Optional kann ein oder mehrere Wörter vorangehen, die mit einem Großbuchstaben beginnen und von Kleinbuchstaben gefolgt werden, abgeschlossen durch mindestens ein Leerzeichen.
  • [A-ZäöüßÄÖÜ][a-zäöüß]+: Erfasst Wörter, die mit einem Großbuchstaben beginnen und von Kleinbuchstaben gefolgt werden.
  • (?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+: Erfasst ein oder mehrere zusätzliche Wörter, die einem ersten Wort folgen müssen, jedes beginnend mit einem Großbuchstaben und gefolgt von Kleinbuchstaben.
  • |\b[A-ZäöüßÄÖÜ]\.\s+[A-ZäöüßÄÖÜ][a-zäöüß]+(?:\s+[A-ZäöüßÄÖÜ][a-zäöüß]+)+\b: Erfasst Initialen, die von einem Punkt und mindestens einem Leerzeichen gefolgt werden, mit einem oder mehreren nachfolgenden Wörtern.

Beispiel und Verhalten​

  • Erwünscht: "A. Müller" sollte erfasst werden als "A. Müller".
  • Erwünscht: "Alexander Müller" sollte erfasst werden als "Alexander Müller".
  • Erwünscht: "A. B. C. Müller" sollte erfasst werden, falls in Ihrer Datenstruktur Initialen gefolgt von mehreren Namen auftreten können.
  • Unerwünscht: Einzelwörter oder einzelne Buchstaben ohne nachfolgenden Punkt sollten nicht erfasst werden.
 

Richie2000

Benutzer
Mitglied seit
30. Apr 2024
Beiträge
3
Punkte für Reaktionen
3
Punkte
3
Da der Container nur temporär ist und aus synOCR selbst erzeugt wird, kann man da nix konfigurieren.
Es ist richtig, dass bei der Erzeugung eines Containers eine standardmäßige Konfiguration von Docker verwendet wird, welche normalerweise den Neustart des Containers vorsieht. Um das Problem mit den "Geister"-Containern zu adressieren, könnten Sie die Defaultkonfiguration von Docker anpassen, um das automatische Neustarten bei einem Absturz zu verhindern.

Falls dies nicht möglich ist, könnten wir alternativ ein Skript implementieren, das regelmäßig überprüft, ob es verwaiste Container gibt, und diese bei Bedarf automatisch entfernt. Eine weitere Option könnte sein, die Logs von synOCR zu überwachen, um festzustellen, ob es häufig zu Abstürzen kommt und ob diese spezifisch behandelt werden müssen.
 

plang.pl

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
28. Okt 2020
Beiträge
15.029
Punkte für Reaktionen
5.400
Punkte
564
Es gibt keine default-Einstellungen. Docker setzt, wenn man keinen betreffenden Parameter mitgibt, immer keine Option für automatischen Restart.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
synOCR erstellt seine Container temporär mit dem Parameter --rm. Ich hatte da noch nie Probleme mit Geistercontainern. Im Fall von @Mamoro92 (#4.377)
tippe ich auf einen laufenden Prozess von synOCR aufgrund einer Vielzahl von Dokumenten. Leider gab es dazu keine Rückmeldung.
 
  • Like
Reaktionen: plang.pl
Mitglied seit
30. Nov 2014
Beiträge
49
Punkte für Reaktionen
3
Punkte
8
Profilwechsel dauert sehr lange

Hallo Stephan,

ich hab die Version 1.4.5, aber auch schon bei 1.3 hatte ich das Problem, dass der Profilwechsel meist minutenlang dauert. Ob ein Profilwechsel vollzogen ist, kann ich nur erkennen, indem ich die angezeigten Felder mit dem Profilnamen vergleiche. Lässt sich der Wechsel irgendwie beschleunigen?

Sorry, falls das schon mal in einem Beitrag erwähnt wurde - ich hab im Forum gesucht und auch im Forum über die Suchmaschine, konnte aber nichts mit "synOCR" und "Profilwechsel" finden.

Gruß
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
@Tommes
Hast du eine Idee zu #4385?
Das ein Wechsel ein paar Sekunden dauert, ist normal (synOCR nutzt für die GUI ja kein Ajax /JS). Aber warum könnte dass Minuten dauern?

@aHTo5Dh2LU1e69YcWwZg
Wieviel Profile hast du angelegt? (wobei ich mir nicht wirklich vorstellen kann, dass das relevant ist)

Du könntest auch mal mit HyperBackup eine Sicherung des Paketes synOCR machen, es deinstallierten und wieder neuinstallieren. Und damit gehen mir schon die Ideen aus.
 

Tommes

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
26. Okt 2009
Beiträge
9.655
Punkte für Reaktionen
1.548
Punkte
314
@geimist
Das synOCR beim wechseln des Profils oder bei speichern der Konfiguration gerne mal ein paar Gedenksekunden einfordert, war glaub ich schon immer so. Ich habe dieses Verhalten immer auf den damit verbundenen Datenbankzugriff geschoben, ohne das jemals groß hinterfragt zu haben. Daher würde ich im Vorliegenden Fall auch hier zunächst den Datenbankzugriff als Schuldigen ausmachen wollen, aber das ist reine Spekulation.

Ich müsste mir den betreffende Code erstmal näher anschauen und evtl. Anhand einiger Tests versuchen, der Ursache auf die Schliche zu kommen. Da es sich hier aber eher um einen Einzelfall handelt, könnte sich das Identifizieren des Fehlers als schwierig herausstellen.

@aHTo5Dh2LU1e69YcWwZg (was ein Name)
Welches Synology NAS Modell besitzt du denn und welche DSM Version verwendest du?

Edit: Ah, sorry! Hatte auf meinem Handy deine Signatur nicht gleich gesehen. Daher korrigiere ich meine Frage. Um welche DS geht es dabei?
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
Ich habe dieses Verhalten immer auf den damit verbundenen Datenbankzugriff geschoben, ohne das jemals groß hinterfragt zu haben. Daher würde ich im Vorliegenden Fall auch hier zunächst den Datenbankzugriff als Schuldigen ausmachen wollen, aber das ist reine Spekulation.
Das würde ich wiederum ausschließen. Ich habe es jetzt nicht gemessen, aber erfahrungsgemäß sollten diese minimalen Abfragen im Millisekundenbereich stattfinden. Auch Seiten wechseln innerhalb von synOCR benötigt ja ein paar Augenblicke (übrigens immer mit einer gewissen I/O-Last). Ich meine mich zu erinnern, dass das bei deinem früheren SPK-Konzept immer so war. Später hattest du das ja umgebaut. Dieser Fall ist dennoch abnormal …
 

wegomyway

Benutzer
Sehr erfahren
Mitglied seit
03. Aug 2022
Beiträge
1.101
Punkte für Reaktionen
481
Punkte
159
@geimist
Das synOCR beim wechseln des Profils oder bei speichern der Konfiguration gerne mal ein paar Gedenksekunden einfordert, war glaub ich schon immer so.
Kann ich definitiv bestätigen.
Einmal ungeduldig gewesen, Profile "zersemmelt" passiert mir dieses nun nicht mehr. Gefühlte 4 Sekunden plusminus 1
 

Tommes

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
26. Okt 2009
Beiträge
9.655
Punkte für Reaktionen
1.548
Punkte
314
Das würde ich wiederum ausschließen.
Ich wollte dir damit jetzt auch nicht auf die Füße treten. Ich seh mir synOCR die Tage nochmal genauer an und schaue, ob ich irgendwo etwas tunen kann.
 

ThePhantom79

Benutzer
Mitglied seit
15. Mai 2023
Beiträge
15
Punkte für Reaktionen
1
Punkte
3
Hallo,

ich habe synocr seit egstern installiert und bin besgeistert. Nur die Ordnerüberwachung will nicht so recht ...
Sing ging kurz, als ich dann ein zweites Profil angelegt habe, ist das Verhalten seltsam:

- VOR dem zweiten Profil konnte ich noch einen Knopf sehen "Ordnerüberwachung restarten" (sinngemäß), der ist jetzt nicht mehr da
- nur noch ein Knopf "Ordnerüberwachung starten" ist zu sehen (drücke ich diesen, werden Dokumente, die schon da sind gescannt - neue, die später kommen abe rnicht)
- Auf der Oberfläche ist der große grüne Haken (nach einigen Minuten wandelt er sich dann manchmal doch in eine Sanduhr - blau hinterlegt)
- gehe ich mit der Maus über den Haken, steht hier "monitoring is not running"


Kann mir jemand auf die Sprünge helfen. was hier schief läuft? Bzw WO genau finde ich die Log-Dateien (steht leider nicht der Hilfe / in den FAQs direkt ersichtlich)

Danke!
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
Beim Starten der Ordnerüberwachung werden auch alle offenen Aufträge abgearbeitet.
Der Button "Ordnerüberwachung starten" bleibt also bestehen?

Du könntest mal das Paket im Paketzentrum stoppen und wieder starten.
Darüber hinaus gibt es auch das inotify.log im Logordner. Vielleicht macht uns das auch schlauer.
 

ThePhantom79

Benutzer
Mitglied seit
15. Mai 2023
Beiträge
15
Punkte für Reaktionen
1
Punkte
3

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
Wo stehen die Log-Dateien? Ich finde sie nicht - vielleicht bin ich zu blind. Leider steht auch in keiner Hilfe, wo diese liegen. ...
Den Pfad legst du selbst in jedem Profil individuell fest.

PS: bitte verifiziere die Ordner in den neuen Profilen und ob evtl. ein ungültiges Profil noch auf aktiv gestellt ist.
 
  • Like
Reaktionen: ThePhantom79

ThePhantom79

Benutzer
Mitglied seit
15. Mai 2023
Beiträge
15
Punkte für Reaktionen
1
Punkte
3
Das wars - den hatte ich leer gelassen ...
Und im Log war der Fehler eindeutig. Im zweiten Profil war ein fehlerhafter Ordnerpfad. Jetzt klappts wunderbar. Danke!
 
  • Like
Reaktionen: geimist

guidovg

Benutzer
Mitglied seit
26. Nov 2011
Beiträge
142
Punkte für Reaktionen
43
Punkte
34
Das würde ich wiederum ausschließen. Ich habe es jetzt nicht gemessen, aber erfahrungsgemäß sollten diese minimalen Abfragen im Millisekundenbereich stattfinden. Auch Seiten wechseln innerhalb von synOCR benötigt ja ein paar Augenblicke (übrigens immer mit einer gewissen I/O-Last). Ich meine mich zu erinnern, dass das bei deinem früheren SPK-Konzept immer so war. Später hattest du das ja umgebaut. Dieser Fall ist dennoch abnormal …
Moin,
da würde ich mich gerne mal mit ranhängen. SynOCR funktioniert bei mir einwandfrei, aber die Konfiguration der Profile über die GUI ist bei mir auch super träge. Nach dem Klick auf den Speichern Button - gerade eben dreimal getestet, bei sehr geringer Systemlast - vergehen jedesmal ca. 13 Sekunden.
Das ist kein Drama, wenn man sich dran gewöhnt hat, wenn ich aber etwas zur Lösung beitragen kann, sehr gerne.
 

Max91

Benutzer
Mitglied seit
31. Mai 2024
Beiträge
6
Punkte für Reaktionen
2
Punkte
3
Hallo Zusammen,

ich habe schon bereits mit dem Stichwort synOCR nach Posts gesucht und nichts passendes gefunden.

Ich habe 3 Profile und jew. 3 Ordernstrukturen (Input, Backup, Output) und übernehme gerade meine Altdaten um eine einheitlichen Stand der Daten zu erhalten (parallel optimiere ich laufend die YAML).

Dabei ist mir aufgefallen, dass manche Dateien (meist von Self Service Portalen) nicht verarbeitet werden können und in den Errorfiles-Ordner landen Aktuell prüfe ich die Ordner regelmäßig um die korrekte Datenübernahme sicherzustellen. Jedoch werde ich das später im Betrieb nicht mehr so regelmäßig machen. Im Betrieb sollen vom "Anwender" nur die Output Ordner sichtbar sein.

Nun meine Frage:
Gibt es bereits ein Programm/Anwendung um Ordner zu überwachen? Mir schwebt eine Benachrichtigung (idealerweise E-Mail) vor, sobald eine neue Datei im Errorfiles-Ordner landet.

Hat das bereits jemand umgesetzt bzw. ist das eventl. mit Boardmitteln möglich?

Viele Grüße
Max
 
Zuletzt bearbeitet:

atzebonn

Benutzer
Mitglied seit
10. Jan 2024
Beiträge
56
Punkte für Reaktionen
39
Punkte
68
So, nun auch hier an dieser Stelle meinen herzlichsten Dank für Eure tolle Arbeit !

Da ich nicht alle Mitarbeitenden kenne aber auch keinen vergessen will, bedanke ich mich einfach bei Allen, die hier ihre Arbeit für die Allgemeinheit zur Verfügung stellen.

Ich finde das Programm synOCR einfach genial - und das beste ist, ich habe es beim ersten Installationsversuch sofort ans Laufen bekommen. Das ist unter anderem Eurer sehr verständlichen Anleitung zu verdanken.

Ich bin erst seit Anfang des Jahres im Besitz eines NAS und dementsprechend Anfänger.

Aber was ich in dieser kurzen Zeit schon alles gelernt und erfahren habe, das ist enorm.

Ich hoffe das geht weiter so und freue mich auf weitere geistige Ergüsse Eurerseits ! Vielleicht hab ich ja auch mal einen ;)

Gruß - Atze

P.S.: Die komplette Durcharbeitung der 220 Seiten dieses Threads hab ich mir für den nächsten Urlaub vorgenommen. Bin froh, das es erstmal läuft.
 
Mitglied seit
30. Nov 2014
Beiträge
49
Punkte für Reaktionen
3
Punkte
8
Danke für die Antworten und sorry, hab wieder mal verpennt dass mir jemand geantwortet hat.
@aHTo5Dh2LU1e69YcWwZg
Wieviel Profile hast du angelegt? (wobei ich mir nicht wirklich vorstellen kann, dass das relevant ist)

Du könntest auch mal mit HyperBackup eine Sicherung des Paketes synOCR machen, es deinstallierten und wieder neuinstallieren. Und damit gehen mir schon die Ideen aus.
Ich hab 6 Profile, wobei das Verhalten auch schon so war als ich noch 3 Profile hatte.
Da ich in dem Thema schon länger nicht mehr drin war, hab ich heute nochmal gemessen: Auf der DS415+ mit DSM 7.1 (2 Profile) dauert der Profilwechsel 15 Sec. und auf der DS1522+ (6 Profile) mit DSM 7.2 scheint es heute mit 39 Sec auch recht flott zu laufen.

Ich hatte das Thema aufgegriffen, da ich mehrere Profile bearbeiten/anlegen musste. Kann es sein, dass sich die Zeit verlängert je mehr Profilwechsel man durchführt?

@aHTo5Dh2LU1e69YcWwZg (was ein Name)
Welches Synology NAS Modell besitzt du denn und welche DSM Version verwendest du?

Edit: Ah, sorry! Hatte auf meinem Handy deine Signatur nicht gleich gesehen. Daher korrigiere ich meine Frage. Um welche DS geht es dabei?
Das ist die DS1522+

PS: SynORC ist auf der DS415 ist neu eingerichtet und läuft auf beiden Systemen zuverlässig.
 
Zuletzt bearbeitet:


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat