synOCR synOCR - GUI für OCRmyPDF

tomjons

Benutzer
Mitglied seit
05. Jun 2013
Beiträge
68
Punkte für Reaktionen
4
Punkte
8
Das ist doch prima.
Normalerweise sollte die RegEx (mein Vorschlag) funktionieren. Für den Fall das Du einen Fall findest, der nicht klappt, lade mir die Sachen einfach hoch, dann schau ich.

Gruß Karsten

So. Es klappt grundsätzlich. Jedoch nicht immer und zwar greift die Regel nicht mehr wenn im Belegkopf im Feld Telefon folgendes Zeichen "/" enthalten ist. Ist es nur eine Zahlenfolge dann extrahiert es die folgende Belegnummer einwandfrei.

Er nimmt dann quasi die Vorwahl als Belegnummer anstatt.
 

Anhänge

  • ocr-fail.JPG
    ocr-fail.JPG
    16,8 KB · Aufrufe: 3
  • synOCR_searchfile_Rechnung 2023-090929.zip
    9,8 KB · Aufrufe: 2

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.537
Punkte für Reaktionen
1.372
Punkte
234
Bist Du sicher, dass die Anleitung für das synOCR_YAMLRULEFILE korrekt ist @geimist ? Ich will nicht klugscheissern und habe von YAML keine Ahnung, aber das Englisch ist falsch:
# "starts with", "does not starts with", #
# "ends with", "does not ends with",
Es muss heissen "does not START with" und "does not END with". Aber vielleicht wird es ja dennoch korrekt interpretiert.
Dieser Fehler ist mir bestimmt beim Übersetzen passiert. Der Text als solcher wird aber nicht ausgewertet, sondern lediglich verglichen. Für die Funktion sollte es also keinen Unterschied machen. Diese Parameter sind auch nicht YAML-spezifisch.

Es ist also nicht perfekt, aber sollte in der Praxis beim Verwenden dieser vorgegebenen Begriffe kein Problem hervorrufen.
Ich könnte das für die Zukunft anpassen und müsste dann beim Auswerten beide Varianten abgleichen. Ich schreibe es mir mal mit auf.

Danke für dein Feedback!
 
Zuletzt bearbeitet:
  • Like
Reaktionen: Zoul

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
882
Punkte für Reaktionen
184
Punkte
63
So. Es klappt grundsätzlich. Jedoch nicht immer und zwar greift die Regel nicht mehr wenn im Belegkopf im Feld Telefon folgendes Zeichen "/" enthalten ist. Ist es nur eine Zahlenfolge dann extrahiert es die folgende Belegnummer einwandfrei.

Er nimmt dann quasi die Vorwahl als Belegnummer anstatt.
Hier die neue Variante:
Code:
(?:Ihr\s*Beleg\S*\s*)\K(?:\d+)

Gruß
Karsten
 
  • Like
Reaktionen: tomjons

tomjons

Benutzer
Mitglied seit
05. Jun 2013
Beiträge
68
Punkte für Reaktionen
4
Punkte
8
Vielen Dank für deine Hilfestellung. Ich verfolge es jetzt mal weiter.
 
Zuletzt bearbeitet von einem Moderator:

DirkKn

Benutzer
Mitglied seit
11. Apr 2016
Beiträge
125
Punkte für Reaktionen
13
Punkte
18
Vielleicht auch das Thema mit dem Image ... hier.
Also ich kann mir nicht helfen, aber das letzte bei mir funktionieren Image, ist jbarlow83/ocrmypdf V15.4.4. Alles danach gibt nur Buchstabensalat raus bei mir und v.a. einen total verschobenen OCR-Layer. Geht das anderen nicht genauso?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.537
Punkte für Reaktionen
1.372
Punkte
234
  • Like
Reaktionen: Gthorsten

herrtim

Benutzer
Mitglied seit
15. Mrz 2016
Beiträge
44
Punkte für Reaktionen
0
Punkte
6
Hi,
ich hatte auch Probleme mit der neusten Version und habe von ":latest" auf 12.7.2 gestellt. Damit funktioniert wieder alles.
Was mir bei der Regex Fehleranalyse aufgefallen ist, ist das Leerzeichen als U+FEFF erkannt werden (Copy von OCR mit anschließendem Paste in Regex101). Das ist mir in der Vergangen so nicht aufgefallen und ich vermute, dass dadurch die Regexsuche nicht funktioniert. Das ist aber nur eine Vermutung ;-)

Gruß Tim
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.537
Punkte für Reaktionen
1.372
Punkte
234
Fehler angeblich gefixt, kann ich jedoch leider nicht bestätigen, bin mir aber auch nicht zu 100% sicher, ob das "latest" jetzt auch wirklich das mit dem Fix ist.
Danke.
SynOCR sucht beim Abarbeiten des ersten Dokuments des Tages nach einem Update. Du kannst es natürlich jederzeit auch manuell im Container Manager laden.

PS:
Im Log von synOCR siehst du auch das Builddatum des aktuellen Image (allerdings an der Stelle im Log ggf. vor einem Update )
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
882
Punkte für Reaktionen
184
Punkte
63
Hallo Ihr Lieben, wir wünschen Euch allen ein frohes Weihnachtsfest. Genießt den Moment, denn er kommt niemals zurück. :)
 

s-tyle

Benutzer
Mitglied seit
30. Nov 2020
Beiträge
28
Punkte für Reaktionen
3
Punkte
3
So, ich habe nun auch das Update auf Synologys 7er System gemacht.
Das "reparieren" von synOCR hat nicht funktioniert (ich meine "falsche referenz" oder sowas, aber nicht gut genug aufgepasst heute nacht, sorry). Allerdings konnte ich mit der Seite und dem DMS7stable Download das Thema in windeseile doch lösen, alles läuft nach den ersten zwei Testseiten ohne Thema so automaitisiert weiter wie das vorher war, vielen Dank!:giggle:

Damit es nicht langweilig wird, habe ich noch eine Frage, bei der zumindest schnelles suchen mich nicht auf einen Weg im Forum geführt hat, bzw. auf keinen Weg, den ich so verstehen konnte...
Ich scanne öfter auch aus Büchern (Schule/Studium), die aber häufig nicht die üblichen Dokumentengrößen haben. Ich habe bisher diese Scans immer als JPG gemacht, dann die Seiten einzeln zugeschnitten und das zur PDF gemacht. Diese PDF hat synOCR ohne Thema verarbeitet.
🤔Ich möchte gerne den Zuschnitt automatisieren, zumindest wenn man den Deckel offen hält kommt ja ein sehr starker Kontrast raus, mit dem man arbeiten können sollte. Ein Bekannter meinte an Weihnachten, Tesseract könne sowas, und das liegt doch hier auch drunter oder? Hab ich also evtl. schon alles auf der Kiste, was nötig ist? Hatte schon jemand das Thema?
❓Die Fage ist also: wie kann ich (mit Tesseract?) von kleineren Quellen in A4 eingescannte PDF Dateien automatisch auf die ursprüngliche Größe zuschneiden? Luxusoption: leicht schiefe Scans begradigen.
Das Ergebnis geht dann wieder in synOCR, da sehe ich aber keine Probleme...

(Sollte es das doch schon geben freue ich mich über den Link zum Thread und bin hier still, vielen Dank)
Frohe Feiertage allen!
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.537
Punkte für Reaktionen
1.372
Punkte
234
Tesseract ist eine Schicht in OCRmyPDF und auf diesem baut synOCR auf.
Dein Szenario hatte ich noch nicht und kann mich auch nicht an einen entsprechenden Fall erinnern.

Mein Empfehlung:
Sieh oder frag doch mal bei OCRmyPDF nach (LINK 1, LINK 2). Entsprechende Parameter könntest du dann wahrscheinlich auch in synOCR (in der GUI bei OCR Optionen) angeben.
 

Tib

Benutzer
Mitglied seit
22. Sep 2023
Beiträge
7
Punkte für Reaktionen
1
Punkte
3
Ich bin nun ebenfalls auf eine neue Synology mit DSM 7 umgezogen, hab allerdings alles - bis auf die alte tag yaml config - laut Wiki von scratch frisch installiert ... und alles läuft wunderbar ohne Probleme. Ich bin hellauf begeistert, wollte es nur mal erwähnt haben und ja, das PayPal-Dankeschön folgt noch. :)
 
  • Like
Reaktionen: geimist

moleribal

Benutzer
Mitglied seit
15. Jul 2021
Beiträge
6
Punkte für Reaktionen
2
Punkte
3
Hi!
Vielen Dank für dieses wunderbare Tool!
Ich habe bisher einen Brother Multifunktionsdrucker genutzt um Dokumente einzuscannen und in den INPUT Ordner abzulegen. Der Scanner hat dabei mehrseitige Scans temporär abgespeichert und die vollständige Datei nach dem Ende des Scans auf den INPUT Ordner (Synology) gelegt. Anschliessend hat synOCR die Datei abgeholt und verarbeitet.

Nun habe ich einen neuen Scanner von Canon. Dieser scannt nun eine Seite sendet diese in eine PDF auf den Netzwerkordner, scannt dann die nächste Seite und fügt sie der PDF Datei auf dem Netzwerkordner hinzu usw.
Wenn der synOCR Cronjob ausgeführt wird holt synOCR die PDF Datei ab, unabhängig davon, ob sie schon vollständig ist oder nicht. Wenn ich also z. B. ein 8-seitiges Dokument scanne, kann es vorkommen, dass synOCR die Datei abholt nachdem erst 2 Seiten gescannt und abgelegt wurden.

Leider gibt es keine Dokumentation seitens Canon, ob die PDF-Datei beim Scanvorgang geöffnet bleibt, oder ob sie nach jedem Seitenscan geöffnet und wieder geschlossen wird, um die Seite hinzuzufügen.

Wie ist synOCR implementiert? Wartet es, falls eine Datei im Dateisystem noch von einem Prozess geöffnet ist oder nicht? Falls nicht: kann man das einstellen?

Besten Dank
Erich
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.537
Punkte für Reaktionen
1.372
Punkte
234
Leider gibt es keine Dokumentation seitens Canon, ob die PDF-Datei beim Scanvorgang geöffnet bleibt, oder ob sie nach jedem Seitenscan geöffnet und wieder geschlossen wird, um die Seite hinzuzufügen.
Ja, das war schon mehrmals ein Problem hier - besonders in Verbindung mit der Ordnerüberwachung. Inotify meldet, dass die Datei geschlossen wurde (u.a. ein Event, über welches Inotify synOCR triggert).

Ich hatte in #3.883 schonmal was dazu geschrieben und einen Workarround aufgezeigt.

Wie ist synOCR implementiert? Wartet es, falls eine Datei im Dateisystem noch von einem Prozess geöffnet ist oder nicht? Falls nicht: kann man das einstellen?
Das ist unglücklich von CANON gelöst. Als Client kann man einfach nicht wissen, ob der Scanner die Datei wieder öffnet und noch weitere Seiten hinzufügt.

EDIT:
Ich hab es gleich mal mit in die FAQ aufgenommen.
 
Zuletzt bearbeitet:

moleribal

Benutzer
Mitglied seit
15. Jul 2021
Beiträge
6
Punkte für Reaktionen
2
Punkte
3
Das habe ich mir fast gedacht. Ich habe eben auch den MB5150. Canon ist hier nicht besonders "professionell" unterwegs. Sie nutzen auch ein altes Authentisierungsprotokoll (NTLMv1 ) um auf die Netzwerkfreigabe zuzugreifen, welches als unsicher gilt. Ist die Frage, ob es etwas nützt den Support anzuschreiben.
Vielen Dank für den Workaround. An so etwas in der Art habe ich auch gedacht, falls Canon die Datei tatsächlich schliesst.
Werde es ausprobieren!

Vielen Dank für die rasche Antwort und einen guten Rutsch ins Neue Jahr!
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.537
Punkte für Reaktionen
1.372
Punkte
234
  • Like
Reaktionen: peterhoffmann

moleribal

Benutzer
Mitglied seit
15. Jul 2021
Beiträge
6
Punkte für Reaktionen
2
Punkte
3
Ich werde sicherlich dem Support schreiben. Habe auch schon wegen NTLMv1 geschrieben weil das aus meiner Sicht ein Produktmangel ist. Mal sehen was sie antworten.
 
  • Like
Reaktionen: geimist


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat