synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.592
Punkte für Reaktionen
1.436
Punkte
234
Ich wüsste nicht, dass ich diesen Fehler schonmal gesehen hätte. Ich würde sagen: Entweder hat das OCRmyPDF-Image ein Problem, oder die Quelldateien sind beschädigt.

  1. kannst du mal bitte eine Datei probieren, die in der Vergangenheit schonmal funktioniert hat
  2. probiere mal bitte ein älteres OCRmyPDF-Image aus (in der GUI die Version v12.7.2 wählen).
 

Ghost108

Benutzer
Mitglied seit
27. Jun 2015
Beiträge
1.268
Punkte für Reaktionen
74
Punkte
68
tja, was soll ich sagen.
habe auf die 12.7.2 gestellt und eine datei aus dem errorlogs in den Hauptordner geschoben.
wurde ohne Probleme analysiert.

Dann wieder auf "latest" image umgestellt, die nächste aus dem error Ordner in den Hauptordner geschoben.
Auch ohne Problem. Was wars gewesen? Keine Ahnung :/
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Olá. Ich muss nochmal kurz zu der Datumsthematik zurückkommen.
Die alphanumerische Datumssuche unterstützt 2- und 4-stellige Jahreszahlen mittels (\d{4}|\d{2})
Anhang anzeigen 87045

Ist es Absicht, dass die rein numerische Datumssuche hingegen nur 4-stellige Jahreszahlen unterstützt?

Für den regex_long_date möchte ich auch nochmals auf die Verwendung von \b statt \s? am Anfang drängen.
Testfall-Zeile: 91054 Erlangen 30. März 2023

Ergebnis mit \s?: Anhang anzeigen 87046

Ergebnis mit \b: Anhang anzeigen 87047
Ups, gerade mal wieder ins forum gesehen. Hatte mich gewundert das es so ruhig war. Irgendwie scheint die Benachrichtigung bei neuen Beiträgen nicht mehr zu funktionieren bei mir.
Habe zu allem keine Info bekommen.
Sorry also, werde mir das umgehend, so wie die Arbeit es erlaubt, ansehen...
 
  • Like
Reaktionen: DeeKay1

achimb

Benutzer
Mitglied seit
24. Okt 2023
Beiträge
4
Punkte für Reaktionen
2
Punkte
53
Eine Frage habe ich noch, synOCR verwendet ja OCRmyPDF was wiederum Tesseract verwendet.

Tesseract hat schrecklich Handschrifterkennung. Gibt es für Handschrift OCR irgendeine Lösung?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.592
Punkte für Reaktionen
1.436
Punkte
234
Da wäre OCRmyPDF wahrscheinlich der bessere Ansprechpartner. Es gibt z.T. speziell trainierte Sprachmodule für Tesseract um z.B. Fraktur besser erkennen zu können. Möglicherweise gibt es das auch für Handschrifterkennung. Damit habe ich mich aber noch nicht beschäftigt. Gibt es Entsprechendes, so kann man sich sein eigenes OCRmyPDF-Image bauen und in synOCR nutzen.

https://github.com/ocrmypdf/OCRmyPDF/issues
 

achimb

Benutzer
Mitglied seit
24. Okt 2023
Beiträge
4
Punkte für Reaktionen
2
Punkte
53
Ja, das habe ich so befürchtet. Es gibt anscheinend keine pretrained Tesseract Models für Handwriting. Angeblich haben es leute geschafft die Accuracy auf 90% zu bringen, aber das ist anscheinend zu wenig um sich durchzusetzen.
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Nur die Ruhe, alles zu seiner Zeit.
Wie gesagt, ich hab’s lokal bei mir angepasst. Seitdem hab ich an die 100 Dokumente gescannt und fahre damit wesentlich besser als vorher.
Habe es mal bei mir probiert und es läuft soweit.
Warte jetzt noch auf eine antwort von Stephan wohin ich das committen soll.
Das mit dem 2 stelligen Jahren bei der numerischen suche war so gemacht, weil 2 stellige Jahre zu fehleramfällig waren
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.592
Punkte für Reaktionen
1.436
Punkte
234
Ich habe mal eine neuen Betazweig für eine zukünftige Version 1.5 begonnen. Der Build entspricht dem letzten Release bis auf:
  • find_dates.py von @Gthorsten aktualisiert
  • über fehlerhafte Quellordner aktiver Profile wird jetzt auf der Startseite informiert
    (das ist in der Regel DIE Ursache, wenn sich das Monitoring nicht starten lässt)


DOWNLOAD:

➜ SPK DSM6 Beta

➜ SPK DSM7 Beta

 
  • Like
Reaktionen: Tommes und Monacum

Schrotti

Benutzer
Mitglied seit
10. Okt 2020
Beiträge
22
Punkte für Reaktionen
3
Punkte
3
Hallo Leute,

heute möchte ich Euch die neueste, für mich erst mal finale Version des YAML-Editors (mit dem neuen Konfigurator) zum Download zur Verfügung stellen.
Leider gab es ja zur Beta vor 2 Wochen kein Feedback. Das ist etwas schade, gerade im Bezug auf Ideen zu neuen Regeln oder Suchbegriffen (Tags) für neue / zusätzliche Templates. Denn immerhin sind die ja für Euch. Ich habe schon noch ein paar Ideen, aber ich konstruiere mir nur Beispiele zurecht. Also wäre es sehr hilfreich, wenn Ihr Euch mal ein paar Sekunden Zeit nehmen könntet, gerne auch per Privater Nachricht.

Im Download ist eine Installationsanweisung und eine Kurzanleitung beinhaltet.
Hier der Download oder in meiner Signatur

Außerdem hier die html Versionen der Erläuterungen und der Änderungen aus dem Editor.

Und hier noch ein Video mit einer Hilfestellung zu Installation und Funktionsweise.

Viel Spaß Karsten
Danke Struppix, Du hast Dir echt viel Mühe gegeben, Chapeau.

Für evtl. Updatesuchen könntest Du den Download-Link evtl. in deinen Copyright Hinweisen ablegen.

Danke, auch Karsten
 

Tommes

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
26. Okt 2009
Beiträge
9.863
Punkte für Reaktionen
1.842
Punkte
314
Ich habe mal eine neuen Betazweig für eine zukünftige Version 1.5 begonnen.
Bedeutet das, das ich einfach dein GitHub Repository füttern kann und das fließt dann automatisch in die 1.5‘er Version ein, oder hast du dafür einen separaten Zweig erstellt?
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.592
Punkte für Reaktionen
1.436
Punkte
234
Genau, kannst gerne nach master pushen. Eleganter wäre es sicherlich, wenn man in einer separaten Branch entwickeln würde, aber derzeit ist es so für mich der einfachste Weg.
Jedes Release bekommt eine eigene Branch nach Veröffentlichung, um Bugfixes adressieren zu können.
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Aber du kannst doch quasi einen neuen branch aufmachen. Habe ich gestern ja auch so gemacht. Dann hättest du meine Änderung in den Beta branch merge können und bei Veröffentlichung dann in den Master
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.592
Punkte für Reaktionen
1.436
Punkte
234
Ja, ich weiß. Aber da ich alleinige Schreibrechte hab, war mir das bisher nicht wichtig. Vielleicht mache ich das in Zukunft ☺️
 
  • Like
Reaktionen: Gthorsten

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
884
Punkte für Reaktionen
187
Punkte
63
Danke Karsten für die Blumen.:)

Für evtl. Updatesuchen könntest Du den Download-Link evtl. in deinen Copyright Hinweisen ablegen.

Das wollte ich eigentlich schon längst aufgenommen haben. Hab es wohl vergessen. :unsure: Beim nächsten update ... des Editors dann halt.

Gruß Karsten
 
  • Like
Reaktionen: Schrotti

Ponti

Benutzer
Mitglied seit
11. Nov 2023
Beiträge
77
Punkte für Reaktionen
8
Punkte
8
Eine Frage - Ich war der Auffassung, dass die Datei-Indexierung automatisch OCR anwendet - da liege ich wohl falsch?
Wo liegt der Unterschied vonOCRmyPDF zu Paplerless-ngx - sry, falls ich gerade völlig auf dem Holzweg bin...
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.227
Punkte für Reaktionen
1.040
Punkte
224
Nein, die Indexierung von DSM kann das nicht leisten.

synOCR führt OCR durch, benennt die Datei wie du willst nach entsprechenden Regeln und verschiebt die Datei in einen Ordner deiner Wahl.

Paperless-ngx ist eine Dokumentenverwaltung, führt also OCR durch, darüber hinaus legst du da noch Korrespondent, Dokumententyp, Tags und Speicherpfad fest und kannst entsprechend die Dateien auch über eine feine Filterung raussuchen, die du gerade brauchst. Das ganze läuft über ein Webinterface, zusätzlich zu den Dokumenten läuft noch eine datenbank, die diese Infos speichert.

Die Texterkennung führt grundsätzlich zu den gleichen Ergebnissen, weil beide Programme OCRmyPDF verwenden.
 

Ponti

Benutzer
Mitglied seit
11. Nov 2023
Beiträge
77
Punkte für Reaktionen
8
Punkte
8
Danke für Info! Hatte mich schon ein wenig in paperless-ngx eingelesen. Der grundsätzliche Vorteil im Gegensatz zu einer Ablage in normalen Ordnern und Suche mittels Index erschließt sich mir jedoch nicht.
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.227
Punkte für Reaktionen
1.040
Punkte
224
Probier mal die Demo-Version aus, vielleicht erschließt sich der Unterschied dann. Eigentlich kann man beide Systemen nicht miteinander vergleichen, weil sie zwei unterschiedliche Anwendungszwecke haben. Und beide haben definitiv ihre Berechtigung.

Wenn ich beispielsweise Dokumente zur Mietwohnung suche, dann habe ich dafür bei Paperless-ngx einen eigenen Tag angegeben und kann die Dokumente nach diesem Tag filtern, exportieren etc. Ich kann sie aber ganz normal chronologisch in den Jahresordnern abspeichern, wenn ich das will – das geht ohne diese Tags nicht.

Auch Kombinationen aus verschiedenen Korrespondenten, Tags und Dokumententypen kannst du nicht ohne weiteres mit einer Suche über den Index herausfinden. In meinem Beispiel oben wird das in der Regel schon daran scheitern, dass nicht in jedem Dokument, was mit der Mietwohnung zusammen hängt, auch das Wort Mietwohnung auftaucht.

Ich nutze tatsächlich beides, alles Wichtige kommt in Paperless-ngx, alles, was ich einfach nur nicht in Papierform aufbewahren will, bei dem ich mir aber ziemlich sicher bin, dass es eher irrelevant ist, wird über synOCR gespeichert und ist dann über die Indizierung schnell zu finden.

Das ist aber natürlich auch von der Anzahl an Dokumenten abhängig, mit denen man pro Monat oder auch pro Jahr arbeitet. Genauso wie die in einem anderen Faden aufgeworfene Frage, warum man zum einscannen von Dokumenten nicht sein Mobiltelefon benutzt, sondern sich teilweise für mehrere 100 € einen eigenen Scanner zulegt.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat