synOCR synOCR - GUI für OCRmyPDF

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
@Gthorsten
Eine Idee wieso er bei der Zeile auf dieses Datum kommt? Und ja, es wird wohl Zeit in den Setting ein Max-Year anzugeben :D
Anhang anzeigen 80425
So habe da eine kleine Unschönheit bereinigt.
An der Stelle sollte jetzt nichts mehr passieren.
Ich muss das aber noch ein wenig testen und dann an Stephan geben.
Da jetzt aber Feierabend ist :) wird es noch ein wenig dauern...
 
  • Like
Reaktionen: DeeKay1 und geimist

Pat Rick

Benutzer
Mitglied seit
14. Mrz 2023
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
So, Versuch mit der Beta Version - jedoch ohne Ergebnis.
Spannenderweise hat er jetzt nicht das Separator Sheet entfernt und alles was danach kommt sondern:

Anhang anzeigen 80232

Funfact: Auch mit der Beta funktioniert die "leere Seite" zwar ignorieren aber dafür alles verarbeiten nur - wenn ich die Funktion "entzerren" weg lasse
Hi
Hast Du das Problem noch oder hast Du eine Lösung gefunden. Ich habe ein ähnliches Problem. Bei mir wird zwar separiert, aber die Separator Sheets bleiben drin. Manchmal hinten, manchmal vorne. Manchmal als einzelne seiten. Anbei Mein Separator Sheet.
Kann mir da jemand helfen. Ich habe die neuste Version drauf 1.3.1
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Bei @ZwickeZwacke hing das Problem auch irgendwie mit seinem Scanner zusammen. Die Sache ist aber noch nicht abgeschlossen. Kannst du mal etwas unverfängliches scannen, was Probleme bereitet und mich hochladen? (inkl. Log).
 

Pat Rick

Benutzer
Mitglied seit
14. Mrz 2023
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Mach ich schnellst möglich.
Komisch ist, dass das OCR den Text den Sheets sauber erkennt. Ergo müsste er nach dem Erkennen des Schlüsselwortes sauber trennen. Komisch ist auch, dass es ganz am Anfang gleich nach der initialen konfiguration funktioniert hat. Zumindest ist mir da kein Fehler aufgefallen.

Ich werde noch testen, ob es eventuell mit der Grösse des PDF's zu tun hat. Es sind jeweils bis zu zehn Separatoren Sheets in einem File und die Files sind bis zu 2mb gross. Was der Scanner auf einmal schlucken kann. ;-)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Nutzt du die aktuelle Beta? Da wurde ein Fehler behoben, sofern zwei aufeinanderfolgende Trennblätter vorhanden waren. Das äußerte sich aber anders. Wir brauchen aber nicht zu spekulieren. Ich guck mir dann deine Files an.
 

Pat Rick

Benutzer
Mitglied seit
14. Mrz 2023
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Ne ich benutze 1.3.1 und die Trennblätter haben immer ein Dokument dazwischen und kommen nie direkt nacheinander.
Möchtest du das verarbeite File oder das Original oder beides?
 

Pat Rick

Benutzer
Mitglied seit
14. Mrz 2023
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Es ist echt ätzend. Ich habe vier Separator Sheets und fünf Blätter mit Text zum testen genommen und alles funktioniert wie es soll.
Gestern hatte ich nur Fehler. Leider kann ich Dir die Files nicht schicken, weil der Inhalt etwas heikel ist (Bank). Trotzdem hier mal das Separator Sheet was ich verwende:

http://ichmagcirclelab76.quickconne.../QNjfWH325rnTo6USLoL5WBTaAPqJjDHr-6b4gjHcKSgo
Link bis 23.03.23 gültig.

Danke für die Hilfe
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Das ist merkwürdig. An dieser Funktion wurde in der stabilen Version nichts geändert. @ZwickeZwacke hatte da u.a. Unterschiede bemerkt, sobald er den Parameter -d in der OCR-Parametern geändert hat. Bitte das mal checken oder mal ein älteres OCRmyPDF-Image probieren (z.B. 12.7.2 mal manuell laden und in der GUI auswählen).
Bitte berichte.
 

Wolf56

Benutzer
Mitglied seit
13. Mrz 2023
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Moin, bin neu in diesem Forum. Ich habe mal eine Frage zu den YAMLRULEFILE. Gibt's auch die Möglichkeit einer "ODER"-Abfrage in einem Regelblock? Der Hintergrund der Frage ist, dass Namen mit Umlauten zum Teil mit "ä" oder "ae" geschrieben werden.
Danke schon mal im Voraus.
Gruß
Wolf
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Moin und willkommen, nein das geht im Moment nicht.
Da geht vielleicht was mit regex die den suchpattern
 

DeeKay1

Benutzer
Mitglied seit
20. Jun 2020
Beiträge
100
Punkte für Reaktionen
23
Punkte
24
Der Hintergrund der Frage ist, dass Namen mit Umlauten zum Teil mit "ä" oder "ae" geschrieben werden.
Jep, das kriegst du mit Regex hin: R(?:ä|ae)tsel.
Du kannst natürlich auch Rätsel|Raetsel schreiben.
Am besten mit Regex vertraut machen und mittels https://regexr.com/ lernen. Allerdings hat jede Regex-Implementierung so seine Eigenheiten. Wenn du am ehesten an das was synOCR macht rankommen willst, dann rechts oben von Javascript auf PCRE umstellen.
1679042881717.png
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
883
Punkte für Reaktionen
185
Punkte
63
Hallo Wolf,
Moin, bin neu in diesem Forum. Ich habe mal eine Frage zu den YAMLRULEFILE. Gibt's auch die Möglichkeit einer "ODER"-Abfrage in einem Regelblock? Der Hintergrund der Frage ist, dass Namen mit Umlauten zum Teil mit "ä" oder "ae" geschrieben werden.
Danke schon mal im Voraus.
Gruß
Wolf
wie Thorsten schreibt, geht eine "Oder" Variante derzeit nicht.

Was möchtest Du aber genau?

Willst Du eine "und / oder" Abfrage machen, geht dies über RegEx, zb. so
Code:
(Suchbegriff1|Suchbegriff2)

Willst Du hingegen in einen bekannten Suchbegriff nur die Übereinstimmung der unterschiedlichen Schreibweise realisieren, sollte auch ein ? an der Stelle ausreichen
Code:
Eisb?r

Um in einer RegEx alle Umlaute zu berücksichtigen, nutze die Klassifizierung
Code:
[a-z\p{L}]+

Gruß Karsten
 

Wolf56

Benutzer
Mitglied seit
13. Mrz 2023
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Danke Euch für die Lösungsansätze. Damit werde ich mich jetzt mal auseinandersetzen.
Gruß
Wolf
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
883
Punkte für Reaktionen
185
Punkte
63

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Dazu möchte ich noch anmerken, dass ich mit synOCR jetzt auf Github umgezogen bin. Das betrifft auch das Wiki. Das alte Repo bleibt aber zunächst noch erreichbar, damit Verlinkungen auf Code in diesem Thread gültig bleiben.
 

adallmo

Benutzer
Mitglied seit
28. Mrz 2018
Beiträge
14
Punkte für Reaktionen
3
Punkte
3
Hallo zusammen,

ich möchte eingescannte Kassenstreifen und Kaufbelege in einen eigenen Unterordner speichern. Lässt sich das mit Synocr realisieren? Leider gibt es keine eindeutigen searchstrings auf diesen Dokumenten, mit denen eine einfache YAML-Regel möglich wäre. Kann Synocr die ungewöhnlichen Scan-Formate dieser langen Papierstreifen erkennen und basierend darauf das Dokument im entsprechenden Unterordner ablegen?

Beste Grüße!

Ansgar
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Unterstützt dein Scanner mehrere Profile? Dann könntest du auch ein separates synOCR Profil anlegen und so dein Vorhaben realisieren.
 
  • Like
Reaktionen: adallmo

adallmo

Benutzer
Mitglied seit
28. Mrz 2018
Beiträge
14
Punkte für Reaktionen
3
Punkte
3
Unterstützt dein Scanner mehrere Profile? Dann könntest du auch ein separates synOCR Profil anlegen und so dein Vorhaben realisieren.
Moin Stephan,

danke für den Tipp. Ich will die innerfamiliären Akzeptanzprobleme klein und die Bedienung so einfach wie möglich halten. Mein Brother ADS 1700 W liegt noch verpackt in der Ecke. Ich glaube, der kann mehrere Profile. Ich probiere das demnächst aus.

Also auf dem Scanner ein zweites Scanprofil anlegen und auf dem NAS ebenfalls ein zweites Synocr-Profil, das dann vom Scanner gefüttert wird? Die Synocr-Profile werden ja automatisch nacheinander abgearbeitet, richtig? Reicht es, wenn das zweite Synocr-Profil lediglich einen eigenen Input-Ordner hat und die ocr-ten-Dokumente per YAML-Regel in einen eigenen Unterordner im gemeinsamen Out-put-Ordner ablegt? Und bestenfalls auch den log- und Backup-Ordner des ersten Profils mitbenutzt?

Schönes Wochenende

Ansgar
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
Ja das funktioniert so, eigener Input-Ordner und eben ein zweites Profil auf dem Scanner. Die kann man bei meinem iX1500 unterschiedlich benennen und auch ein eigenes gif verwenden (z. B. Buchstabe), vielleicht geht das bei dem Brother ja auch.

Logs und Backups habe ich auch in einem Ordner.
 
  • Like
Reaktionen: adallmo


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat