synOCR synOCR - GUI für OCRmyPDF

geimist · 25. Okt. 2023

Ich wüsste nicht, dass ich diesen Fehler schonmal gesehen hätte. Ich würde sagen: Entweder hat das OCRmyPDF-Image ein Problem, oder die Quelldateien sind beschädigt.

kannst du mal bitte eine Datei probieren, die in der Vergangenheit schonmal funktioniert hat
probiere mal bitte ein älteres OCRmyPDF-Image aus (in der GUI die Version v12.7.2 wählen).

Ghost108 · 25. Okt. 2023

tja, was soll ich sagen.
habe auf die 12.7.2 gestellt und eine datei aus dem errorlogs in den Hauptordner geschoben.
wurde ohne Probleme analysiert.

Dann wieder auf "latest" image umgestellt, die nächste aus dem error Ordner in den Hauptordner geschoben.
Auch ohne Problem. Was wars gewesen? Keine Ahnung :/

geimist · 25. Okt. 2023

Ich auch nicht.
Ende gut, alles gut

Gthorsten · 25. Okt. 2023

DeeKay1 schrieb:
Olá. Ich muss nochmal kurz zu der Datumsthematik zurückkommen.
Die alphanumerische Datumssuche unterstützt 2- und 4-stellige Jahreszahlen mittels (\d{4}|\d{2})
Anhang anzeigen 87045

Ist es Absicht, dass die rein numerische Datumssuche hingegen nur 4-stellige Jahreszahlen unterstützt?

Für den regex_long_date möchte ich auch nochmals auf die Verwendung von \b statt \s? am Anfang drängen.
Testfall-Zeile: 91054 Erlangen 30. März 2023

Ergebnis mit \s?: Anhang anzeigen 87046

Ergebnis mit \b: Anhang anzeigen 87047

Ups, gerade mal wieder ins forum gesehen. Hatte mich gewundert das es so ruhig war. Irgendwie scheint die Benachrichtigung bei neuen Beiträgen nicht mehr zu funktionieren bei mir.
Habe zu allem keine Info bekommen.
Sorry also, werde mir das umgehend, so wie die Arbeit es erlaubt, ansehen...

DeeKay1 · 25. Okt. 2023

Gthorsten schrieb:
Sorry also, werde mir das umgehend, so wie die Arbeit es erlaubt, ansehen...

Nur die Ruhe, alles zu seiner Zeit.
Wie gesagt, ich hab’s lokal bei mir angepasst. Seitdem hab ich an die 100 Dokumente gescannt und fahre damit wesentlich besser als vorher.

achimb · 26. Okt. 2023

Eine Frage habe ich noch, synOCR verwendet ja OCRmyPDF was wiederum Tesseract verwendet.

Tesseract hat schrecklich Handschrifterkennung. Gibt es für Handschrift OCR irgendeine Lösung?

geimist · 26. Okt. 2023

Da wäre OCRmyPDF wahrscheinlich der bessere Ansprechpartner. Es gibt z.T. speziell trainierte Sprachmodule für Tesseract um z.B. Fraktur besser erkennen zu können. Möglicherweise gibt es das auch für Handschrifterkennung. Damit habe ich mich aber noch nicht beschäftigt. Gibt es Entsprechendes, so kann man sich sein eigenes OCRmyPDF-Image bauen und in synOCR nutzen.

https://github.com/ocrmypdf/OCRmyPDF/issues

achimb · 26. Okt. 2023

Ja, das habe ich so befürchtet. Es gibt anscheinend keine pretrained Tesseract Models für Handwriting. Angeblich haben es leute geschafft die Accuracy auf 90% zu bringen, aber das ist anscheinend zu wenig um sich durchzusetzen.

Gthorsten · 26. Okt. 2023

DeeKay1 schrieb:
Nur die Ruhe, alles zu seiner Zeit.
Wie gesagt, ich hab’s lokal bei mir angepasst. Seitdem hab ich an die 100 Dokumente gescannt und fahre damit wesentlich besser als vorher.

Habe es mal bei mir probiert und es läuft soweit.
Warte jetzt noch auf eine antwort von Stephan wohin ich das committen soll.
Das mit dem 2 stelligen Jahren bei der numerischen suche war so gemacht, weil 2 stellige Jahre zu fehleramfällig waren

geimist · 27. Okt. 2023

Ich habe mal eine neuen Betazweig für eine zukünftige Version 1.5 begonnen. Der Build entspricht dem letzten Release bis auf:

find_dates.py von @Gthorsten aktualisiert
über fehlerhafte Quellordner aktiver Profile wird jetzt auf der Startseite informiert
(das ist in der Regel DIE Ursache, wenn sich das Monitoring nicht starten lässt)

DOWNLOAD:

➜ SPK DSM6 Beta

➜ SPK DSM7 Beta

Schrotti · 28. Okt. 2023

Struppix schrieb:
Hallo Leute,

heute möchte ich Euch die neueste, für mich erst mal finale Version des YAML-Editors (mit dem neuen Konfigurator) zum Download zur Verfügung stellen.
Leider gab es ja zur Beta vor 2 Wochen kein Feedback. Das ist etwas schade, gerade im Bezug auf Ideen zu neuen Regeln oder Suchbegriffen (Tags) für neue / zusätzliche Templates. Denn immerhin sind die ja für Euch. Ich habe schon noch ein paar Ideen, aber ich konstruiere mir nur Beispiele zurecht. Also wäre es sehr hilfreich, wenn Ihr Euch mal ein paar Sekunden Zeit nehmen könntet, gerne auch per Privater Nachricht.

Im Download ist eine Installationsanweisung und eine Kurzanleitung beinhaltet.
Hier der Download oder in meiner Signatur

Außerdem hier die html Versionen der Erläuterungen und der Änderungen aus dem Editor.

Und hier noch ein Video mit einer Hilfestellung zu Installation und Funktionsweise.

Viel Spaß Karsten

Danke Struppix, Du hast Dir echt viel Mühe gegeben, Chapeau.

Für evtl. Updatesuchen könntest Du den Download-Link evtl. in deinen Copyright Hinweisen ablegen.

Danke, auch Karsten

Tommes · 28. Okt. 2023

geimist schrieb:
Ich habe mal eine neuen Betazweig für eine zukünftige Version 1.5 begonnen.

Bedeutet das, das ich einfach dein GitHub Repository füttern kann und das fließt dann automatisch in die 1.5‘er Version ein, oder hast du dafür einen separaten Zweig erstellt?

geimist · 28. Okt. 2023

Genau, kannst gerne nach master pushen. Eleganter wäre es sicherlich, wenn man in einer separaten Branch entwickeln würde, aber derzeit ist es so für mich der einfachste Weg.
Jedes Release bekommt eine eigene Branch nach Veröffentlichung, um Bugfixes adressieren zu können.

Gthorsten · 28. Okt. 2023

Aber du kannst doch quasi einen neuen branch aufmachen. Habe ich gestern ja auch so gemacht. Dann hättest du meine Änderung in den Beta branch merge können und bei Veröffentlichung dann in den Master

geimist · 28. Okt. 2023

Ja, ich weiß. Aber da ich alleinige Schreibrechte hab, war mir das bisher nicht wichtig. Vielleicht mache ich das in Zukunft

Struppix · 28. Okt. 2023

Danke Karsten für die Blumen.

Schrotti schrieb:
Für evtl. Updatesuchen könntest Du den Download-Link evtl. in deinen Copyright Hinweisen ablegen.

Das wollte ich eigentlich schon längst aufgenommen haben. Hab es wohl vergessen.

Beim nächsten update ... des Editors dann halt.

Gruß Karsten

Ponti · 12. Nov. 2023

Eine Frage - Ich war der Auffassung, dass die Datei-Indexierung automatisch OCR anwendet - da liege ich wohl falsch?
Wo liegt der Unterschied vonOCRmyPDF zu Paplerless-ngx - sry, falls ich gerade völlig auf dem Holzweg bin...

Monacum · 12. Nov. 2023

Nein, die Indexierung von DSM kann das nicht leisten.

synOCR führt OCR durch, benennt die Datei wie du willst nach entsprechenden Regeln und verschiebt die Datei in einen Ordner deiner Wahl.

Paperless-ngx ist eine Dokumentenverwaltung, führt also OCR durch, darüber hinaus legst du da noch Korrespondent, Dokumententyp, Tags und Speicherpfad fest und kannst entsprechend die Dateien auch über eine feine Filterung raussuchen, die du gerade brauchst. Das ganze läuft über ein Webinterface, zusätzlich zu den Dokumenten läuft noch eine datenbank, die diese Infos speichert.

Die Texterkennung führt grundsätzlich zu den gleichen Ergebnissen, weil beide Programme OCRmyPDF verwenden.

Ponti · 12. Nov. 2023

Danke für Info! Hatte mich schon ein wenig in paperless-ngx eingelesen. Der grundsätzliche Vorteil im Gegensatz zu einer Ablage in normalen Ordnern und Suche mittels Index erschließt sich mir jedoch nicht.

Monacum · 12. Nov. 2023

Probier mal die Demo-Version aus, vielleicht erschließt sich der Unterschied dann. Eigentlich kann man beide Systemen nicht miteinander vergleichen, weil sie zwei unterschiedliche Anwendungszwecke haben. Und beide haben definitiv ihre Berechtigung.

Wenn ich beispielsweise Dokumente zur Mietwohnung suche, dann habe ich dafür bei Paperless-ngx einen eigenen Tag angegeben und kann die Dokumente nach diesem Tag filtern, exportieren etc. Ich kann sie aber ganz normal chronologisch in den Jahresordnern abspeichern, wenn ich das will – das geht ohne diese Tags nicht.

Auch Kombinationen aus verschiedenen Korrespondenten, Tags und Dokumententypen kannst du nicht ohne weiteres mit einer Suche über den Index herausfinden. In meinem Beispiel oben wird das in der Regel schon daran scheitern, dass nicht in jedem Dokument, was mit der Mietwohnung zusammen hängt, auch das Wort Mietwohnung auftaucht.

Ich nutze tatsächlich beides, alles Wichtige kommt in Paperless-ngx, alles, was ich einfach nur nicht in Papierform aufbewahren will, bei dem ich mir aber ziemlich sicher bin, dass es eher irrelevant ist, wird über synOCR gespeichert und ist dann über die Indizierung schnell zu finden.

Das ist aber natürlich auch von der Anzahl an Dokumenten abhängig, mit denen man pro Monat oder auch pro Jahr arbeitet. Genauso wie die in einem anderen Faden aufgeworfene Frage, warum man zum einscannen von Dokumenten nicht sein Mobiltelefon benutzt, sondern sich teilweise für mehrere 100 € einen eigenen Scanner zulegt.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

DOWNLOAD:​

➜ SPK DSM6 Beta​

➜ SPK DSM7 Beta​

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat

DOWNLOAD:

➜ SPK DSM6 Beta

➜ SPK DSM7 Beta