synOCR synOCR - GUI für OCRmyPDF

wagawaga · 03. Feb. 2021

Den hier? synOCR/synOCR_master_latest_(2021-01-26_12-46)_2349439.spk

Den habe ich drüberinstalliert und noch mal einen Versuch unternommen. Die Ergebnisse mit Logs hänge ich hier an. Die Tags wurden alphabetisch sortiert und nicht in der Reihenfolge der Ruleabarbeitung.

Oder habe ich etwas falsch gemacht beim installieren des obigen Builds?

geimist · 03. Feb. 2021

Die Tagregeln werden rückwärts aufgebaut, d.h. ein neu gefundener Tag wird VOR den bereits gefundenen gesetzt. Du musst also die Reihenfolge umkehren.

wagawaga · 03. Feb. 2021

Perfekt! Passt und funktioniert!!! Einfach den Präfix des Rulenames entsprechend von aaa auf ccc nun kommen die Ergebnisse so raus, wie ich es mir erhofft hatte.

1000 Dank für das schnelle Feedback!

wagawaga · 03. Feb. 2021

Vielleicht noch eine Frage...

Im Augenblick kann ich ja nur auf der Ebene einer Rule eine Condition: all, any, none festlegen.

Kann ich denn auch gewissermaßen eine Verschachtelung machen? Also Subrule1 muss erfüllt sein und für die Subrules 2 - 4 gilt, dass eine (also any) erfüllt sein muss.

geimist · 03. Feb. 2021

Nein, das geht nicht …

wagawaga · 03. Feb. 2021

Mir schiessen nur gerade so ein paar Ideen durch den Kopf. Es ist ja schon ein gewisser Aufwand Regeln für alle Dokumente zusammenzustellen und dabei fehlerhafte Trigger zu vermeiden.

Wäre es denn denkbar, die Bearbeitung einer Rule davon abhängig zu machen, ob eine andere Rule satisfied worden ist oder nicht?

Gerade Kontoauszüge erzeugen ja eine Menge Probleme. Da tauchen in den Buchungstexten so ziemlich alle Trigger auf, die man sich so vorstellen kann.

geimist · 03. Feb. 2021

wagawaga schrieb:
Es ist ja schon ein gewisser Aufwand Regeln für alle Dokumente zusammenzustellen und dabei fehlerhafte Trigger zu vermeiden.

Meinst du, die entsprechende Logik zu programmieren, ist einfacher

wagawaga schrieb:
Gerade Kontoauszüge erzeugen ja eine Menge Probleme. Da tauchen in den Buchungstexten so ziemlich alle Trigger auf, die man sich so vorstellen kann.

Kannst du dir da nicht mit searchtyp: is not helfen? (das hilft natürlich nicht bei jeder condition)

YAML:

sampletagrulename1:
    tagname: Bausparvertrag
    targetfolder:
    condition: all
    subrules:
    - searchstring: LBS
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: true
    - searchstring: Kontoauszug
      searchtyp: is not
      isRegEx: false
      source: content
      casesensitive: false

dreamdealer · 03. Feb. 2021

geimist schrieb:
Meines Wissens musst du das mit dem Parameter --rotate-pages verbinden.
Also: --rotate-pages --rotate-pages-threshold 5

Die Änderung hat leider keinerlei Effekt.

Bei den OCR options
-srd -l deu --rotate-pages --rotate-pages-threshold 5
besteht das Problem genau so weiterhin.

Kann es ggf. sein dass es an nem AutoUpdate des Dockerimages liegt? Ich habe keinerlei Einstellungen verändert und die Scans vom 04.01. sind ok, bei denen vom 26.01. ist es mir zum ersten mal aufgefallen?

geimist · 03. Feb. 2021

Dein Problem betrifft ausschließlich OCRmyPDF direkt. Du kannst natürlich mal an anderes Image in der Dockergui ziehen und dann in der GUI auswählen.

polonus · 03. Feb. 2021

peterhoffmann schrieb:
Ich muss nachhaken, damit wir uns nicht falsch verstehen.
Auf dem Desktop vom DSM?
Oder meinst du aus dem Menü (oben links) vom DSM?

Dass es auf dem Desktop nicht sofort erscheint, natürlich klar. Es erscheint nicht im Menü.

polonus · 03. Feb. 2021

geimist schrieb:
Guter Gedanke, Peter. Manchmal denkt man gar nicht so weit …
Alternativ: Lässt sich die GUI über das Paketzentrum öffnen?

Über Paketzentrum kann man nur den Deinst stoppen oder deinstallieren.

geimist · 03. Feb. 2021

sehr eigenartig - da habe ich gerade keine Idee. Kannst du mal ein anderes Communitypaket testen (z.B. synOTR oder Ulitmate Backup [gerne eines der beiden, da sie eine gleich aufgebaute GUI haben])

polonus · 03. Feb. 2021

geimist schrieb:
sehr eigenartig - da habe ich gerade keine Idee. Kannst du mal ein anderes Communitypaket testen (z.B. synOTR oder Ulitmate Backup [gerne eines der beiden, da sie eine gleich aufgebaute GUI haben])

Ich denke somit wird klarer, was ich meine (siehe Screenshots). Ich verstehe schon, dass ihr auch "Basic Fragen". Ich nutze Synology Server seit über 12 Jahren (sei DS207+ der Renner war

). Bis jetzt habe ich auch keine Community Apps verwendet. Eigentlich ist für mich SynOCR eine Ausnahme. Die App ist aber so genial, dass ich einfach schwach wurde...

polonus · 03. Feb. 2021

geimist schrieb:
sehr eigenartig - da habe ich gerade keine Idee. Kannst du mal ein anderes Communitypaket testen (z.B. synOTR oder Ulitmate Backup [gerne eines der beiden, da sie eine gleich aufgebaute GUI haben])

Hallo geimst, bei Interesse könnte ich gerne im screensharing (Zoom/Skype for business oder Microsoft Teams) kurz zeigen ...

driftkingisback · 03. Feb. 2021

Hallo, das Programm läuft super!!!
Eine Frage:
Ist es möglich das er den Namen der Firma erkennt? Ich kann nicht alle Tages schreiben, wie MediaMarkt,Satur,OBI...es gibt ja immer neue Firmen.

Also das Datum, dann Rechnung und danach die FIRMA....
Datum, Rechnung wird schon erkannt...sonst habe ich nur Dateien mit Rechnungen....

polonus · 03. Feb. 2021

Ja, aber nur wenn der die Namen nicht als Logo sondern als Text erscheinen. Du musst nur entsprechende Regeln definieren. Das hat bei mir echt gut funktioniert.

dreamdealer · 03. Feb. 2021

geimist schrieb:
Dein Problem betrifft ausschließlich OCRmyPDF direkt. Du kannst natürlich mal an anderes Image in der Dockergui ziehen und dann in der GUI auswählen.

Bin ich der Einzige mit dem Problem? Kann ich mir eigentlich nicht vorstellen? Ist ja eigentlich keine exotische Funktion.

mamema · 03. Feb. 2021

no.one schrieb:
Ich habe nun das gleiche Problem mit manchen meiner PDFs....

@geimist Ist es möglich das "qpdf --decrypt..." automatisiert mit synOCR durchlaufen zu lassen?

LG no.one

ich mach das mit Bezahlsoftware, weil ich beruflich darauf Zugriff habe, gibt es aber auch als open source:
https://github.com/jakepetroules/littlebirdyMein Workflow ist einfach derart, dass ich vor OCRmyPDF so ein Tool über die PDFs laufen lasse.

driftkingisback · 03. Feb. 2021

polonus schrieb:
Ja, aber nur wenn der die Namen nicht als Logo sondern als Text erscheinen. Du musst nur entsprechende Regeln definieren. Das hat bei mir echt gut funktioniert.

Ich kann doch nicht alle Firmen wissen wie die heißen und wo ich demnächst einkaufe.
Deichmann, Rewe,Netto,Liddle,Jack&Jones

wie mache ich das am besten? Ein Beispiel wäre hilfreich

vasw · 03. Feb. 2021

Hallo,
bräuchte kurz Hilfe...
möchte das dieses Regex (123.?456.?789) "nicht gefunden" wird
funktioniert irgendwie nicht - kann das stimmen?

YAML:

    - searchstring: 123.?456.?789
      searchtyp: does not contain
      isRegEx: true
      source: content
      casesensitive: false

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat