synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
Offensichtlich war ja dein Beispiel-Zieldokument noch nicht gedreht - entsprechend falsch ist dann die Texterkennung.

Eine 90° Drehung klappt noch eher als eine 180° Drehung. Die Empfindlichkeit kann man beeinflussen (für die Parameter einfach mal im Thread suchen) wenn es unbedingt notwendig ist.
 

driftkingisback

Benutzer
Mitglied seit
17. Sep 2020
Beiträge
122
Punkte für Reaktionen
4
Punkte
18
Endlich hat geklappt, das kam raus:
2017-11-21_#ZBT International Trading#Rechnung_
Gibt es ein Befehl, das Rechnung oder Versicherung, Bank direkt nach der Datumsanzeige kommt?
@geimist, vielen Dank fürs helfen
 
  • Like
Reaktionen: geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234

driftkingisback

Benutzer
Mitglied seit
17. Sep 2020
Beiträge
122
Punkte für Reaktionen
4
Punkte
18
Vielen Dank auch dir @peterhoffmann, bin so froh das es jetzt klappt.

Ich lege ein Dokument in den Brother 1700 , der dreht mir immer das Dokument auf den Kopf (180Grad). Ich kann doch nicht immer das Dokument seitenverkehrt in den Dokumentenscanner legen, dass es dann richig rauskommt, hatte einer schon mal das Problem?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
Also man legt das Dokument so ein, dass auf der Seite oben begonnen wird zu scannen - d.h. dass man es in der Regel mit dem Kopf nach unten einlegt.
Solange sich das Gerät immer gleich verhält, ist's ja auch egal und man passt sich an ;)
 

synfor

Benutzer
Sehr erfahren
Mitglied seit
22. Dez 2017
Beiträge
9.036
Punkte für Reaktionen
1.618
Punkte
308
Seitenverkehrt ist eine Spiegelung und keine Drehung um 180°.
 

driftkingisback

Benutzer
Mitglied seit
17. Sep 2020
Beiträge
122
Punkte für Reaktionen
4
Punkte
18
Nochmals vielen Dank für eure Hilfe gestern, ich freu mich das es klappt.

Eine Frage hätte ich noch.
Ist es möglich anhand einem TAGd z.B die Kundennr.0172 erkennt und schlüsselt es um in Handyvertrag.

oder z.b Telekomrechnung = Handyrechnung

oder anhand eines Kennzeichens HEF-TT schreibt Haftpflichtversicherung
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
Ja, das ist möglich, aber (derzeit) nicht über die GUI. Dazu musst du die Regeln in das YAML-Format konvertieren (Button findest du in der GUI) und dort kannst du dann das Ganze viel feiner steuern.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
Hast du schon den Button geklickt? Die bestehenden Regeln werden ja dann konvertiert und die Regeldatei findest du im Input-Ordner. Darin findest du auch ein Beispiel und Erklärungen. Bei weiteren Fragen bitte nochmal melden.
 

driftkingisback

Benutzer
Mitglied seit
17. Sep 2020
Beiträge
122
Punkte für Reaktionen
4
Punkte
18
ja auf den Button habe ich schon geklickt. Die Regeldatei wurde mir auch ausgegeben.
Wie muss ich das verändern, wenn er Telekom findet, soll die Datei als Handyrechnung -Telekomm ausgegeben werden
und wenn er HEF-TT findet soll Autoversicherung-HEF-TT ausgegeben werden.

Telekom_9:
tagname: Telekom
targetfolder:
condition: any
subrules:
- searchstring: Telekom
searchtyp: contains
isRegEx: false
source: content
casesensitive: true

HEF-TT_10:
tagname: Telefonica
targetfolder:
condition: any
subrules:
- searchstring: HEF-TT
searchtyp: contains
isRegEx: false
source: content
casesensitive: true
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
(G A N Z wichtig für das YAML-Format sind die führenden Leerzeichen. Deshalb Code bitte auch hier als solchen einfügen.)

Noch ein paar Hinweise:
  • Der Regelname (Telekom_9: HEF_TT_10:) muss mit einem Buchstaben beginnen und darf bis auf den abschließenden Doppelpunkt keine Sonderzeichen enthalten. Inhaltlich ist der Name egal, solange er dafür einmalig ist.
  • Subrules kannst du beliebig kombinieren, sodass z.B. mehrere Bedingungen erfüllt sein müssen, damit die Regel greift.

YAML:
Telekom_9:
    tagname: Handyrechnung-Telekom
    targetfolder:
    condition: any
    subrules:
    - searchstring: Telekom
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false

HEF_TT_10:
    tagname: Autoversicherung-HEF-TT
    targetfolder:
    condition: any
    subrules:
    - searchstring: HEF-TT
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false
 
Zuletzt bearbeitet:

BigStephan

Benutzer
Mitglied seit
14. Apr 2014
Beiträge
16
Punkte für Reaktionen
1
Punkte
3
Hallo Stephan,

mir ist aufgefallen, dass zwar ältere Datumsangaben (bspw. 16.11.1978) erkannt werden, diese aber nicht ins Dateidatum übernommen werden.
Eine Angabe bspw. 16.11.1982 funktioniert hingegen...ist das eher systembedingt?

Außerdem scheint es so bei der Tagsuche zu sein, dass wenn ein Tag (TAG1) gefunden wird und der nächste Tag (TAG2) auch, verschiebt sich dieser TAG1 in der Dateibenennung (#TAG2#TAG1.pdf) bekanntlich nach hinten. Ist so schon immer und auch ok. Wird aber TAG1 mehrfach gefunden (nämlich von der Position her so dass zwischen ihm TAG2 auftaucht) vertauscht sich die Reihenfolge wieder und es kommt #TAG2#Tag2.pdf heraus.
Das ist verwirrend :)

Achso: ich arbeite mit der YAML-Textdatei.

EDIT: Im Log sind die Rules nach Alphabet sortiert...daher schein das zu kommen...Soll das so sein? (Wenn Du jetzt sagst ja, dann pack ich überall eine Nummer davor - natürlich nach dem Muster: REGEL001_Rechnung, REGEL002_Angebot - damit das auch YAML konform mit einem Buchstaben beginnt, aber das müßte dann künftig auch so bleiben...oder hast Du vor das zu ändern?)

EDIT2: ok habe probehalber meine YAML Datei einmal "nummeriert". Laut Log geht er die Tags jetzt auch in der gewünschten Reihenfolge durch. Leider packt er den Dateinamen dann aber trotzdem alphabetisch zusammen ?

Grüße Stephan

P.S. Noch eine Anmerkung: man sucht sich inzwischen hier im Thread einen Wolf, wenn man etwas bestimmtes / bestimmte Probleme und Lösungen hat.
Kann man die Diskussion nicht entweder in andere Diskussionen auslagern künftig oder in ein anderes Forum?
Ich weiss nicht, ob meine obigen Fragen schonmal gestellt worden sind hier (ja die Forumssuche hilft schon ein wenig, aber nicht viel)...
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
mir ist aufgefallen, dass zwar ältere Datumsangaben (bspw. 16.11.1978) erkannt werden, diese aber nicht ins Dateidatum übernommen werden.
Eine Angabe bspw. 16.11.1982 funktioniert hingegen...ist das eher systembedingt?
Das verstehe ich nicht. Kannst du bitte mal ein Log hochladen (Link in meiner Signatur).
Wird aber TAG1 mehrfach gefunden (nämlich von der Position her so dass zwischen ihm TAG2 auftaucht) vertauscht sich die Reihenfolge wieder und es kommt #TAG2#Tag2.pdf heraus.
Das ist verwirrend :)
#TAG2#Tag2.pdf ist aber ein Schreibfehler, oder?
synOCR arbeitet so: zunächst wird jeder Tag im Dokumente gesucht (Tag werden also durchaus mehrmals gefunden / vielleicht auch, weil es mehrere Regeln gibt, die einen Tag ausgeben). Weil wohl kein User möchte, dass 5x der Tag #Rechnung im Dateinamen steht, werden die Tags einmalig gemacht (mit sort -u siehst du hier). Das sorgt dann wieder für die Umstellung der Reihenfolge.
Kann man die Diskussion nicht entweder in andere Diskussionen auslagern künftig oder in ein anderes Forum?
Natürlich kann man - du bist herzlich eingeladen. Das meine ich ganz ehrlich. Ich bin froh, wenn ich etwas freie Zeit und Kraft für Features und Bugs investieren kann, die inzwischen viel weitreichender sind, als ursprünglich von mir geplant. Mit etwas Unterstützung könnte man das schöner dokumentieren (z.B. in einem Wiki des Repos). Auf die Struktur des Forums hier, habe ich keinen Einfluss, aber jedem User steht es frei, für Fragen einen eigenen Thread zu erstellen. Es ist sehr gut nachzuvollziehen, dass man in diesem Thread schnell den Überblick verlieren kann.
 

BigStephan

Benutzer
Mitglied seit
14. Apr 2014
Beiträge
16
Punkte für Reaktionen
1
Punkte
3
Hallo Stephan,

hatte meinen Beitrag zwischenzeitlich editiert...
#TAG2#Tag2.pdf war tatsächlich ein Schreibfehler...sollte #TAG2#TAG1.pdf heissen

Ist inzwischen aber egal, da das meiner Meinung nach an der alphabetischen Abarbeitung liegt (siehe oben EDIT und EDIT2).
Es ist also vollkommen egal in welcher Reihenfolge meine Abfragen in der YAML stehen, es kommt immer ein alphabetisch sortierter Name heraus.

Natürlich kann man - du bist herzlich eingeladen. Das meine ich ganz ehrlich. Ich bin froh, wenn ich etwas freie Zeit und Kraft für Features und Bugs investieren kann, die inzwischen viel weitreichender sind, als ursprünglich von mir geplant. Mit etwas Unterstützung könnte man das schöner dokumentieren (z.B. in einem Wiki des Repos). Auf die Struktur des Forums hier, habe ich keinen Einfluss, aber jedem User steht es frei, für Fragen einen eigenen Thread zu erstellen. Es ist sehr gut nachzuvollziehen, dass man in diesem Thread schnell den Überblick verlieren kann.
Das war wirklich nur konstruktiv gemeint ;-)
Das Repos hab ich eben zum ersten mal gesehen. Weder Google noch die Beiträge hier haben einen Hinweis darauf gegeben (ja ok...ich habe NICHT alle 70 Seiten durchgeschaut....aber da sind wir wieder beim Thema ?)
Vielleicht ein EDIT Deines allerersten Beitrags ergänzt um den Link zum Repos?


Achso...hier noch der Auszug aus dem log:

Code:
check date (dd mm [yy]yy): 16.12.1978 ? valid
                  day:  16
                  month:12
                  year: 1978
              ? renaming:
                  apply renaming syntax ? #000 1978-12-16 #Stephan
              ? edit metadata ERROR - exiftool not found! Please install it over cphub.net
                  target file: #000 1978-12-16 #Stephan.pdf
              ? Adapt file date (Source: OCR)
              ? move source file to: /volume1/Scans/BACKUP/#00 1978-12-16 #Vertrag#Angebot#Rechnung.pdf
                  INFO: (PushBullet-TOKEN not set)
                  INFO: (runtime last file: 00:00:47 (pagecount: 2) | all: 834 PDFs / 1828 Pages processed up to now

Grüße

Stephan
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234
Vielleicht ein EDIT Deines allerersten Beitrags ergänzt um den Link zum Repos?
Na ja, das Wiki im Repo ist ja noch leer ????

Auf die Schnelle kann ich keinen Fehler erkennen.
Woher kommt das #000 zu Beginn des Dateinamens?
Stimmt bei dir die Umbenennung nicht, oder lediglich das Dateidatum (Erstelldatum) nicht?

Ein Testdokument mit dem Datum 16.11.1978 wird bei mir korrekt erkannt und auch das Dateidatum entsprechend gesetzt.
Bildschirmfoto 2021-01-21 um 16.37.35.png
Wenn du willst, kannst du auch mal den aktuellen Build testen.
 

BigStephan

Benutzer
Mitglied seit
14. Apr 2014
Beiträge
16
Punkte für Reaktionen
1
Punkte
3
Hallo Stephan,

Ja das Wiki ist leider leer...das müsste mal jemand füllen. Leider kenn ich mich damit nicht aus, bzw. Sollte dort auf alles eingegangen werden (z.b. auch die Installation usw.)...und da fehlt es mir leider an Wissen.

Das #000 füge ich selbst ein. Hatte damals (vor mehr als nem Jahr) hier im Thread schonmal ne Frage gestellt...ich stemple alle meine Dokumente bei eintreffen mit so nem fortlaufendem Nummernstempel ab und scanne sie dann. So kann ich in Ruhe das Dokument online suchen und falls ich das Original brauche gehe ich an die Kiste (dort liegt es nach dieser Nummer sortiert drin) und finde es ohne 20 Ordner mit verschiedenen Themen usw. aufstellen zu müssen. Sozusagen organisiertes Chaos. Wenn die Datenbank dahinter mal crasht bin ich aufgeschmissen.
Da die Nummernerkennung damals noch nicht ging (heute ja mithilfe von regex machbar) füge ich händisch die ersten 3 Nullen in den dateinamen ein und ergänze das ganze dann nachträglich um die letzten 3 Zahlen. Automatisiert wäre schöner aber leider ist die Stempelei meist so unsauber dass die Zahlenerkennung nur in 10% der Fälle funktioniert.

Das Datum erkennt er ja sauber (fügt er ja in den Namen ein). Nur irgendwie stellt er dann das Dateidatum (letzte Änderung) damit nicht ein...bleibt leer. Bei anderen Dateien jüngeren Datums (OCR Datum) klappt das aber.

Grüße Stephan

P.S. Man kann es nicht oft genug sagen: Klasse Arbeit die du hier machst!!!!
 
  • Like
Reaktionen: peterhoffmann

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.550
Punkte für Reaktionen
1.380
Punkte
234


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat