synOCR synOCR - GUI für OCRmyPDF

ChiliApple · 05. Juni 2021

@geimist
Mit RC 7 wäre ja eine Docker Installation von deiner GUI möglich oder? (Damit es wieder läuft bis zu einem Update)Hab gesehen in GitHub …

bG

geimist · 05. Juni 2021

Es gab bisher nur Überlegungen in diese Richtung, oder was meinst du genau?

ChiliApple · 06. Juni 2021

meine gelesen zu haben das es auch im Docker läuft?

geimist · 06. Juni 2021

Von meiner Seite nicht ????

Gthorsten · 09. Juni 2021

Moin,
Habe mir gerade mal Gedanken zu der Version 7 gemacht.
Das gui Projekt basiert ja auf einem anderen Skript basierten Projekt.
Das ganze ist doch, wenn es mich nicht täuscht, Linux basiert.
Wäre es nicht möglich dieses Skript auf einem raspberry laufen zu lassen, und nur die synology als Ablage zu nutzen?
OK damit würde man den Komfort des gui verlieren,
Aber es wäre auch unabhängig von der dsm Version 7.
Habe schon mal gegoogelt,
OCR auf dem raspberry sollte klappen.
Ist nur mal so eine dumme Idee von mir.

geimist · 09. Juni 2021

Eins vorweg: ich bin zuversichtlich, dass es eine Version für DSM 7 geben wird.

Wenn du es aber unabhängig vom DSM laufen lassen möchtest, brauchst du neben Docker (das Image OCRmyPDF übernimmt ja die Arbeit) hauptsächlich folgende Dateien:

synOCR.sh (das eigentliche Arbeitsskript
synOCR-start.sh
synOCR.sqlite (die Konfigurationsdatenbank)
upgradeconfig.sh (erstellt / pflegt die DB)

Sicherlich gibt es dann noch einige Abhängigkeiten, die man auflösen muss.

Gthorsten · 09. Juni 2021

Nein ich will das nicht unbedingt, es war nur so ein Gedanke an eine Notlösung.
Docker bräuchte ich nicht, da es da auf dem pi eine Lösung gibt die die Dokumente ocr mäßig bearbeitet.
Ging halt um das Skript was dann die Arbeit macht, nach Tags sucht und die Namen entsprechend erzeugt.
Ich bin auch in der Software Branche aktiv und suche privat immer nach interessanten Dingen.
Oft ist dann leider die Zeit zu knapp.

So wie es jetzt auf der synology läuft ist es mir viel lieber als noch ein System zu haben.
Habe ja auch keine Ahnung wie hoch die Hürden sind die synology da auf einmal mit der 7er aufbaut.
Danke aber für die Info und danke für deine Arbeit

s-tyle · 20. Juni 2021

geimist schrieb:
Die Tagregeln werden rückwärts aufgebaut, d.h. ein neu gefundener Tag wird VOR den bereits gefundenen gesetzt. Du musst also die Reihenfolge umkehren.

Ich muss nochmal nerven, das Ganze funktioniert echt wirklich gut, ich habe nur einen Punkt, den ich nachhaltig nicht in den Griff bekomme...
=> Tags setzen (aus eine externen Regeldatei) funktioniert Grundsätzlich, aaaber ich empfinde die Tags in der Reihenfolge als zufällig. Zumindest kommen die Tags nicht konstant in der Reihenfolge der Datei (egal ob Vorwärts oder Rückwärts gelesen).
In der Datei definiere ich die Tags a/b/c/d/e/f/g. Wenn ich es richtig verstanden habe, geht er die Datei von oben nach unten durch, und fügt Tags aber nicht hinten, sondern vorne an. Dann sollte also wenn a/c/f erfüllt ist
a-> a
b-> a
c-> c/a
d-> c/a
e-> c/a
f-> f/c/a
g-> f/c/a
als Ergebnis rauskommen oder? Ich habe aber z.B. f/a/c
Gibt es hier nochmal was für mein Verständnis? Eigentlich kann das nur ein Denkfehler sein, der arbeitet ja sicher nicht Random durch die Regeln...

Ansonsten bin ich noch n bisken am Thema Seiten-Rotation, das ist aber auf meiner Liste ganz unten.

Zum Thema Datum noch: Ich habe immer wieder das Problem bei Bescheinigungen, das das Dokumentendatum unten bei Unterschrift und Stempel steht, und er dann das Geburtsdatum weiter oben beim Namen nimmt. Ich habe aber auch keine schlaue Idee, wie man das umbiegen sollte, ausser ggf. in einer Datei bestimmte Daten definieren zu können, bei denen er schlicht nach weiteren geeigneten Daten sucht und dann bevorzugt das letzte nimmt (in der Annahme, dass ggf. Kurstermine eher in der Mitte als ganz unten stehen).

geimist · 20. Juni 2021

Dann wird das wohl von jq ~~durcheinandergebracht~~ anders sortiert (vermute ich) - und zwar hier.
Vielleicht hat ja jemand anderes einen Tipp?

Für unerwünschte Daten kannst du eine Blacklist in der GUI angeben. Diese werden dann übersprungen. Damit das funktioniert, musst du auf die Syntax achten (blaues Info-i).

reneh · 21. Juni 2021

geimist schrieb:
Dann wird das wohl von jq ~~durcheinandergebracht~~ anders sortiert (vermute ich) - und zwar hier.
Vielleicht hat ja jemand anderes einen Tipp?

Hab mal nachgesehen, ob aus dem YAML korrektes JSON wird:

INPUT:

Rechnung:
tagname: Rechnung
targetfolder: Rechnungen
condition: any
subrules:
- searchstring: Rechnung
searchtyp: contains
isRegEx: false
source: content
casesensitive: false
- searchstring: Lieferschein
searchtyp: contains
isRegEx: false
source: content
casesensitive: false
Saturn:
tagname: Saturn
targetfolder: Rechnungen
condition: any
subrules:
- searchstring: Saturn
searchtyp: contains
isRegEx: false
source: content
casesensitive: false
MediaMarkt:
tagname: MediaMarkt
targetfolder: Rechnungen
condition: any
subrules:
- searchstring: "Media Markt"
searchtyp: contains
isRegEx: false
source: content
casesensitive: false
koffer.com:
tagname: koffer.com
targetfolder: Rechnungen
condition: any
subrules:
- searchstring: koffer.com
searchtyp: contains
isRegEx: false
source: content
casesensitive: false

OUTPUT:

{
"MediaMarkt": {
"condition": "any",
"subrules": [
{
"casesensitive": false,
"isRegEx": false,
"searchstring": "Media Markt",
"searchtyp": "contains",
"source": "content"
}
],
"tagname": "MediaMarkt",
"targetfolder": "Rechnungen"
},
"Rechnung": {
"condition": "any",
"subrules": [
{
"casesensitive": false,
"isRegEx": false,
"searchstring": "Rechnung",
"searchtyp": "contains",
"source": "content"
},
{
"casesensitive": false,
"isRegEx": false,
"searchstring": "Lieferschein",
"searchtyp": "contains",
"source": "content"
}
],
"tagname": "Rechnung",
"targetfolder": "Rechnungen"
},
"Saturn": {
"condition": "any",
"subrules": [
{
"casesensitive": false,
"isRegEx": false,
"searchstring": "Saturn",
"searchtyp": "contains",
"source": "content"
}
],
"tagname": "Saturn",
"targetfolder": "Rechnungen"
},
"koffer_com": {
"condition": "any",
"subrules": [
{
"casesensitive": false,
"isRegEx": false,
"searchstring": "koffer.com",
"searchtyp": "contains",
"source": "content"
}
],
"tagname": "koffer.com",
"targetfolder": "Rechnungen"
}
}

Wie man sieht, stimmt schon hier die Reihenfolge nicht, bevor es zu jq kommt.

Das Problem ist hier also stattdessen yq und der Bug wurde hier gefixt. Du verwendest noch yq in der Version 3.3, ab Version 3.4.1 ist der Bug gefixt

edit: mal getestet, mit Version 3.4.1 siehts gut aus

reneh · 21. Juni 2021

Habe von hier die Version 3.4.1 geladen und es hat direkt funktioniert. Also hab für meine DS218+ die Version yq_linux_386 genommen.

s-tyle · 21. Juni 2021

geimist schrieb:
Für unerwünschte Daten kannst du eine Blacklist in der GUI angeben. Diese werden dann übersprungen. Damit das funktioniert, musst du auf die Syntax achten (blaues Info-i).

Hallo, wie üblich erstmal Danke für die schnelle Antwort. Ich habe tatsächlich parallel beim weiterlesen hier den hinweis auf ein update gesehen, was genau diese Funktion brachte, und siehe da, das Feld gab es bei mir schon nach den Updates letzte Tage...

Das funktioniert auch soweit ich das sehe, bzgl. der Syntax von mir noch die Anmerkung: Das Muster mit den "unmöglichen Daten" ist mit Semikolon als Trennzeichen geschrieben, so habe ich es auch gemacht, was zu funktionieren scheint. Im Info-I wird das Leerzeichen als Trennzeichen angegeben (ich habe das nicht ausprobiert, vielleicht geht auch beides).

Den anderen Teil Deiner Antwort und die folgenden Antworten verstehe ich so, dass ich das schon Richtig sehe, die Ursache für dieses Feature aber an einer Stelle liegt, die ich nicht verstehe und deshalb aus gutem Grund nicht erreichen kann...

Danke.

Ergänzung: Die fortlaufende Nummerierung an den Regelnamen hat damit nichts zu tun, oder? Ist die für irgendwas notwendig oder kann die auch einfach weg?

geimist · 21. Juni 2021

Ja, wahrscheinlich ist beides möglich.

Du kannst gerne mal das aktuelle Build von meinem Server probieren (lediglich das entsprechende Programm wurde aktualisiert).

Kaestorfer · 22. Juni 2021

Ertsmal vielen Dank für deine Mühe @geimist. Habe es seit heute auch auf meiner 220+ am Laufen.

Eine Frage habe ich: Welches Programm nutzt ihr, damit ihr per Suche die korrekten .pdf-Dateien angezeigt bekommt. Beispiel: Ich habe eine Ikea Rechnung eingescannt und würde diese dann gerne per Suche angezeigt bekommen. Windows macht dies aber leider nicht und zeigt mir auf meinem NAS nichts an. Habe den NAS als Netzlaufwerk angebunden...

Danke für Eure Tipps!

Viele Grüße

Gthorsten · 22. Juni 2021

Also ich mache es über mein Tablett.
Habe den Ordner mit in die universal search genommen, auf der nas. Und nutze am. Tablett dann synology drive. Der kann das mit durchsuchen.
Am. Windows PC habe ich es noch nicht getestet, weil ich den ganz wenig brauche.

geimist · 22. Juni 2021

reneh schrieb:
Das Problem ist hier also stattdessen yq und der Bug wurde hier gefixt. Du verwendest noch yq in der Version 3.3, ab Version 3.4.1 ist der Bug gefixt

Vielen Dank nochmal für deine Hilfe!

Kaestorfer schrieb:
Welches Programm nutzt ihr, damit ihr per Suche die korrekten .pdf-Dateien angezeigt bekommt. … Habe den NAS als Netzlaufwerk angebunden...

Da geht wohl ab Drive 3.0 (DSM 7). Sonst halt nur über den Umweg der Synchronistation oder direkt in Universal Search.

reneh · 23. Juni 2021

Kaestorfer schrieb:
Eine Frage habe ich: Welches Programm nutzt ihr, damit ihr per Suche die korrekten .pdf-Dateien angezeigt bekommt.

Ich hab die Ordner der Synology per AFP am Mac eingebunden und er findet die Dokumente mit der normalen Filer-Suche anhand der Inhalte. Das müsste bei SMB/Windows ähnlich sein. Evtl. musst du noch die Indizierung für den Share in Windows aktivieren (letzter Schritt): https://www.online-tech-tips.com/windows-10/add-network-folder-to-windows-search-index/

geimist schrieb:
Vielen Dank nochmal für deine Hilfe!

Gerne

mal eine Frage zu DSM 7: was erschwert eigentlich die Portierung? Die neue Struktur der Pakete oder etwas im OS selbst? Habe nämlich bereits den RC bei mir am Laufen und mir jetzt erstmal mit Virtual DSM in einer VM beholfen, damit ich dein Paket nutzen kann.

geimist · 23. Juni 2021

reneh schrieb:
…mal eine Frage zu DSM 7: was erschwert eigentlich die Portierung? Die neue Struktur der Pakete oder etwas im OS selbst? Habe nämlich bereits den RC bei mir am Laufen und mir jetzt erstmal mit Virtual DSM in einer VM beholfen, damit ich dein Paket nutzen kann.

Eigentlich wollte sich @voodoo44 um die Anpassung kümmern. Er hatte wohl schon während der Betaphase das Paket weitestgehend angepasst. Allerdings gab es ein Problem mit der Erstellung des Synotokens (das ging nur per root - Pakete dürfen aber nicht mehr unter root laufen). Laut dem Support wäre das ein Bug der gefixt werden sollte. Seit der Veröffentlichung des RC war @voodoo44 hier nicht mehr online. Tosobosos Lösung besteht darin, die Originaldateien aus dem DSM in das Paket zu legen. Diese Dateien sind aber z.T. binärabhängig (laufen also nicht plattformunabhängig). Ich wüsste gern, ob es seit dem RC einfacher geht. Wenn nicht, müssen wir wohl diesen Weg gehen. Aus meiner Sicht ist LogAnalysis von Tommes aufgrund des gleichen Paketaufbaus ein gutes Muster.

reneh schrieb:
… was erschwert eigentlich die Portierung?

Meine Gesundheit ist meinerseits der limitierende Faktor. Daher bin ich (alle) für jede Unterstützung dankbar ??

Kaestorfer · 23. Juni 2021

reneh schrieb:
Ich hab die Ordner der Synology per AFP am Mac eingebunden und er findet die Dokumente mit der normalen Filer-Suche anhand der Inhalte. Das müsste bei SMB/Windows ähnlich sein. Evtl. musst du noch die Indizierung für den Share in Windows aktivieren (letzter Schritt): https://www.online-tech-tips.com/windows-10/add-network-folder-to-windows-search-index/

Schade. Das klappt zwar für den Ordner, aber er durchsucht mir nicht die .PDF-Dateien. Hier gibt es scheinbar bisher keine Lösung...

geimist · 23. Juni 2021

Aus den Release Notes für DSM 7:

In Windows File Explorer, users can now search for the files and their content in indexed folders.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat