synOCR synOCR - GUI für OCRmyPDF

tomjons · 20. Dez 2023

Struppix schrieb:
Das ist doch prima.
Normalerweise sollte die RegEx (mein Vorschlag) funktionieren. Für den Fall das Du einen Fall findest, der nicht klappt, lade mir die Sachen einfach hoch, dann schau ich.

Gruß Karsten

So. Es klappt grundsätzlich. Jedoch nicht immer und zwar greift die Regel nicht mehr wenn im Belegkopf im Feld Telefon folgendes Zeichen "/" enthalten ist. Ist es nur eine Zahlenfolge dann extrahiert es die folgende Belegnummer einwandfrei.

Er nimmt dann quasi die Vorwahl als Belegnummer anstatt.

geimist · 20. Dez 2023

Zoul schrieb:
Bist Du sicher, dass die Anleitung für das synOCR_YAMLRULEFILE korrekt ist @geimist ? Ich will nicht klugscheissern und habe von YAML keine Ahnung, aber das Englisch ist falsch:
# "starts with", "does not starts with", #
# "ends with", "does not ends with",
Es muss heissen "does not START with" und "does not END with". Aber vielleicht wird es ja dennoch korrekt interpretiert.

Dieser Fehler ist mir bestimmt beim Übersetzen passiert. Der Text als solcher wird aber nicht ausgewertet, sondern lediglich verglichen. Für die Funktion sollte es also keinen Unterschied machen. Diese Parameter sind auch nicht YAML-spezifisch.

Es ist also nicht perfekt, aber sollte in der Praxis beim Verwenden dieser vorgegebenen Begriffe kein Problem hervorrufen.
Ich könnte das für die Zukunft anpassen und müsste dann beim Auswerten beide Varianten abgleichen. Ich schreibe es mir mal mit auf.

Danke für dein Feedback!

Struppix · 20. Dez 2023

tomjons schrieb:
So. Es klappt grundsätzlich. Jedoch nicht immer und zwar greift die Regel nicht mehr wenn im Belegkopf im Feld Telefon folgendes Zeichen "/" enthalten ist. Ist es nur eine Zahlenfolge dann extrahiert es die folgende Belegnummer einwandfrei.

Er nimmt dann quasi die Vorwahl als Belegnummer anstatt.

Hier die neue Variante:

Code:

(?:Ihr\s*Beleg\S*\s*)\K(?:\d+)

Gruß
Karsten

tomjons · 20. Dez 2023

Vielen Dank für deine Hilfestellung. Ich verfolge es jetzt mal weiter.

DirkKn · 20. Dez 2023

Struppix schrieb:
Vielleicht auch das Thema mit dem Image ... hier.

Also ich kann mir nicht helfen, aber das letzte bei mir funktionieren Image, ist jbarlow83/ocrmypdf V15.4.4. Alles danach gibt nur Buchstabensalat raus bei mir und v.a. einen total verschobenen OCR-Layer. Geht das anderen nicht genauso?

Gthorsten · 20. Dez 2023

Ich nehme das was Stefan in der Vorauswahl hat

geimist · 20. Dez 2023

DirkKn schrieb:
Also ich kann mir nicht helfen, aber das letzte bei mir funktionieren Image, ist jbarlow83/ocrmypdf V15.4.4. Alles danach gibt nur Buchstabensalat raus bei mir und v.a. einen total verschobenen OCR-Layer. Geht das anderen nicht genauso?

Ich kann es nur immer wieder betonen:
Bitte meldet das auch dem Entwickler von OCRmyPDF und gebt idealerweise hier Rückmeldung

herrtim · 20. Dez 2023

Hi,
ich hatte auch Probleme mit der neusten Version und habe von ":latest" auf 12.7.2 gestellt. Damit funktioniert wieder alles.
Was mir bei der Regex Fehleranalyse aufgefallen ist, ist das Leerzeichen als U+FEFF erkannt werden (Copy von OCR mit anschließendem Paste in Regex101). Das ist mir in der Vergangen so nicht aufgefallen und ich vermute, dass dadurch die Regexsuche nicht funktioniert. Das ist aber nur eine Vermutung ;-)

Gruß Tim

DirkKn · 21. Dez 2023

geimist schrieb:
... gebt idealerweise hier Rückmeldung

Fehler angeblich gefixt, kann ich jedoch leider nicht bestätigen, bin mir aber auch nicht zu 100% sicher, ob das "latest" jetzt auch wirklich das mit dem Fix ist.

Monacum · 21. Dez 2023

Wenn es Version 16.0.1 ist, dann ja.

geimist · 21. Dez 2023

DirkKn schrieb:
Fehler angeblich gefixt, kann ich jedoch leider nicht bestätigen, bin mir aber auch nicht zu 100% sicher, ob das "latest" jetzt auch wirklich das mit dem Fix ist.

Danke.
SynOCR sucht beim Abarbeiten des ersten Dokuments des Tages nach einem Update. Du kannst es natürlich jederzeit auch manuell im Container Manager laden.

PS:
Im Log von synOCR siehst du auch das Builddatum des aktuellen Image (allerdings an der Stelle im Log ggf. vor einem Update )

Struppix · 24. Dez 2023

Hallo Ihr Lieben, wir wünschen Euch allen ein frohes Weihnachtsfest. Genießt den Moment, denn er kommt niemals zurück.

s-tyle · 28. Dez 2023

So, ich habe nun auch das Update auf Synologys 7er System gemacht.
Das "reparieren" von synOCR hat nicht funktioniert (ich meine "falsche referenz" oder sowas, aber nicht gut genug aufgepasst heute nacht, sorry). Allerdings konnte ich mit der Seite und dem DMS7stable Download das Thema in windeseile doch lösen, alles läuft nach den ersten zwei Testseiten ohne Thema so automaitisiert weiter wie das vorher war, vielen Dank!

Damit es nicht langweilig wird, habe ich noch eine Frage, bei der zumindest schnelles suchen mich nicht auf einen Weg im Forum geführt hat, bzw. auf keinen Weg, den ich so verstehen konnte...
Ich scanne öfter auch aus Büchern (Schule/Studium), die aber häufig nicht die üblichen Dokumentengrößen haben. Ich habe bisher diese Scans immer als JPG gemacht, dann die Seiten einzeln zugeschnitten und das zur PDF gemacht. Diese PDF hat synOCR ohne Thema verarbeitet.

Ich möchte gerne den Zuschnitt automatisieren, zumindest wenn man den Deckel offen hält kommt ja ein sehr starker Kontrast raus, mit dem man arbeiten können sollte. Ein Bekannter meinte an Weihnachten, Tesseract könne sowas, und das liegt doch hier auch drunter oder? Hab ich also evtl. schon alles auf der Kiste, was nötig ist? Hatte schon jemand das Thema?

Die Fage ist also: wie kann ich (mit Tesseract?) von kleineren Quellen in A4 eingescannte PDF Dateien automatisch auf die ursprüngliche Größe zuschneiden? Luxusoption: leicht schiefe Scans begradigen.
Das Ergebnis geht dann wieder in synOCR, da sehe ich aber keine Probleme...

(Sollte es das doch schon geben freue ich mich über den Link zum Thread und bin hier still, vielen Dank)
Frohe Feiertage allen!

geimist · 28. Dez 2023

Tesseract ist eine Schicht in OCRmyPDF und auf diesem baut synOCR auf.
Dein Szenario hatte ich noch nicht und kann mich auch nicht an einen entsprechenden Fall erinnern.

Mein Empfehlung:
Sieh oder frag doch mal bei OCRmyPDF nach (LINK 1, LINK 2). Entsprechende Parameter könntest du dann wahrscheinlich auch in synOCR (in der GUI bei OCR Optionen) angeben.

Tib · 28. Dez 2023

Ich bin nun ebenfalls auf eine neue Synology mit DSM 7 umgezogen, hab allerdings alles - bis auf die alte tag yaml config - laut Wiki von scratch frisch installiert ... und alles läuft wunderbar ohne Probleme. Ich bin hellauf begeistert, wollte es nur mal erwähnt haben und ja, das PayPal-Dankeschön folgt noch.

moleribal · 30. Dez 2023

Hi!
Vielen Dank für dieses wunderbare Tool!
Ich habe bisher einen Brother Multifunktionsdrucker genutzt um Dokumente einzuscannen und in den INPUT Ordner abzulegen. Der Scanner hat dabei mehrseitige Scans temporär abgespeichert und die vollständige Datei nach dem Ende des Scans auf den INPUT Ordner (Synology) gelegt. Anschliessend hat synOCR die Datei abgeholt und verarbeitet.

Nun habe ich einen neuen Scanner von Canon. Dieser scannt nun eine Seite sendet diese in eine PDF auf den Netzwerkordner, scannt dann die nächste Seite und fügt sie der PDF Datei auf dem Netzwerkordner hinzu usw.
Wenn der synOCR Cronjob ausgeführt wird holt synOCR die PDF Datei ab, unabhängig davon, ob sie schon vollständig ist oder nicht. Wenn ich also z. B. ein 8-seitiges Dokument scanne, kann es vorkommen, dass synOCR die Datei abholt nachdem erst 2 Seiten gescannt und abgelegt wurden.

Leider gibt es keine Dokumentation seitens Canon, ob die PDF-Datei beim Scanvorgang geöffnet bleibt, oder ob sie nach jedem Seitenscan geöffnet und wieder geschlossen wird, um die Seite hinzuzufügen.

Wie ist synOCR implementiert? Wartet es, falls eine Datei im Dateisystem noch von einem Prozess geöffnet ist oder nicht? Falls nicht: kann man das einstellen?

Besten Dank
Erich

geimist · 30. Dez 2023

moleribal schrieb:
Leider gibt es keine Dokumentation seitens Canon, ob die PDF-Datei beim Scanvorgang geöffnet bleibt, oder ob sie nach jedem Seitenscan geöffnet und wieder geschlossen wird, um die Seite hinzuzufügen.

Ja, das war schon mehrmals ein Problem hier - besonders in Verbindung mit der Ordnerüberwachung. Inotify meldet, dass die Datei geschlossen wurde (u.a. ein Event, über welches Inotify synOCR triggert).

Ich hatte in #3.883 schonmal was dazu geschrieben und einen Workarround aufgezeigt.

moleribal schrieb:
Wie ist synOCR implementiert? Wartet es, falls eine Datei im Dateisystem noch von einem Prozess geöffnet ist oder nicht? Falls nicht: kann man das einstellen?

Das ist unglücklich von CANON gelöst. Als Client kann man einfach nicht wissen, ob der Scanner die Datei wieder öffnet und noch weitere Seiten hinzufügt.

EDIT:
Ich hab es gleich mal mit in die FAQ aufgenommen.

moleribal · 30. Dez 2023

Das habe ich mir fast gedacht. Ich habe eben auch den MB5150. Canon ist hier nicht besonders "professionell" unterwegs. Sie nutzen auch ein altes Authentisierungsprotokoll (NTLMv1 ) um auf die Netzwerkfreigabe zuzugreifen, welches als unsicher gilt. Ist die Frage, ob es etwas nützt den Support anzuschreiben.
Vielen Dank für den Workaround. An so etwas in der Art habe ich auch gedacht, falls Canon die Datei tatsächlich schliesst.
Werde es ausprobieren!

Vielen Dank für die rasche Antwort und einen guten Rutsch ins Neue Jahr!

geimist · 30. Dez 2023

moleribal schrieb:
Ist die Frage, ob es etwas nützt den Support anzuschreiben.

Wenn alle sagen: "Was kann EINER schon bewirken?" …

moleribal · 30. Dez 2023

Ich werde sicherlich dem Support schreiben. Habe auch schon wegen NTLMv1 geschrieben weil das aus meiner Sicht ein Produktmangel ist. Mal sehen was sie antworten.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Kaffeautomat