synOCR synOCR - GUI für OCRmyPDF

ChiliApple

Benutzer
Mitglied seit
04. Dez 2013
Beiträge
240
Punkte für Reaktionen
7
Punkte
24
@geimist
Mit RC 7 wäre ja eine Docker Installation von deiner GUI möglich oder? (Damit es wieder läuft bis zu einem Update)Hab gesehen in GitHub …

bG
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Moin,
Habe mir gerade mal Gedanken zu der Version 7 gemacht.
Das gui Projekt basiert ja auf einem anderen Skript basierten Projekt.
Das ganze ist doch, wenn es mich nicht täuscht, Linux basiert.
Wäre es nicht möglich dieses Skript auf einem raspberry laufen zu lassen, und nur die synology als Ablage zu nutzen?
OK damit würde man den Komfort des gui verlieren,
Aber es wäre auch unabhängig von der dsm Version 7.
Habe schon mal gegoogelt,
OCR auf dem raspberry sollte klappen.
Ist nur mal so eine dumme Idee von mir.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.377
Punkte
234
Eins vorweg: ich bin zuversichtlich, dass es eine Version für DSM 7 geben wird.

Wenn du es aber unabhängig vom DSM laufen lassen möchtest, brauchst du neben Docker (das Image OCRmyPDF übernimmt ja die Arbeit) hauptsächlich folgende Dateien:
Sicherlich gibt es dann noch einige Abhängigkeiten, die man auflösen muss.
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Nein ich will das nicht unbedingt, es war nur so ein Gedanke an eine Notlösung.
Docker bräuchte ich nicht, da es da auf dem pi eine Lösung gibt die die Dokumente ocr mäßig bearbeitet.
Ging halt um das Skript was dann die Arbeit macht, nach Tags sucht und die Namen entsprechend erzeugt.
Ich bin auch in der Software Branche aktiv und suche privat immer nach interessanten Dingen.
Oft ist dann leider die Zeit zu knapp.

So wie es jetzt auf der synology läuft ist es mir viel lieber als noch ein System zu haben.
Habe ja auch keine Ahnung wie hoch die Hürden sind die synology da auf einmal mit der 7er aufbaut.
Danke aber für die Info und danke für deine Arbeit
 

s-tyle

Benutzer
Mitglied seit
30. Nov 2020
Beiträge
28
Punkte für Reaktionen
3
Punkte
3
Die Tagregeln werden rückwärts aufgebaut, d.h. ein neu gefundener Tag wird VOR den bereits gefundenen gesetzt. Du musst also die Reihenfolge umkehren.
Ich muss nochmal nerven, das Ganze funktioniert echt wirklich gut, ich habe nur einen Punkt, den ich nachhaltig nicht in den Griff bekomme...
=> Tags setzen (aus eine externen Regeldatei) funktioniert Grundsätzlich, aaaber ich empfinde die Tags in der Reihenfolge als zufällig. Zumindest kommen die Tags nicht konstant in der Reihenfolge der Datei (egal ob Vorwärts oder Rückwärts gelesen).
In der Datei definiere ich die Tags a/b/c/d/e/f/g. Wenn ich es richtig verstanden habe, geht er die Datei von oben nach unten durch, und fügt Tags aber nicht hinten, sondern vorne an. Dann sollte also wenn a/c/f erfüllt ist
a-> a
b-> a
c-> c/a
d-> c/a
e-> c/a
f-> f/c/a
g-> f/c/a
als Ergebnis rauskommen oder? Ich habe aber z.B. f/a/c
Gibt es hier nochmal was für mein Verständnis? Eigentlich kann das nur ein Denkfehler sein, der arbeitet ja sicher nicht Random durch die Regeln...

Ansonsten bin ich noch n bisken am Thema Seiten-Rotation, das ist aber auf meiner Liste ganz unten.

Zum Thema Datum noch: Ich habe immer wieder das Problem bei Bescheinigungen, das das Dokumentendatum unten bei Unterschrift und Stempel steht, und er dann das Geburtsdatum weiter oben beim Namen nimmt. Ich habe aber auch keine schlaue Idee, wie man das umbiegen sollte, ausser ggf. in einer Datei bestimmte Daten definieren zu können, bei denen er schlicht nach weiteren geeigneten Daten sucht und dann bevorzugt das letzte nimmt (in der Annahme, dass ggf. Kurstermine eher in der Mitte als ganz unten stehen).
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.377
Punkte
234
Dann wird das wohl von jq durcheinandergebracht anders sortiert (vermute ich) - und zwar hier.
Vielleicht hat ja jemand anderes einen Tipp?

Für unerwünschte Daten kannst du eine Blacklist in der GUI angeben. Diese werden dann übersprungen. Damit das funktioniert, musst du auf die Syntax achten (blaues Info-i).
 

reneh

Benutzer
Mitglied seit
21. Jun 2021
Beiträge
6
Punkte für Reaktionen
1
Punkte
3
Dann wird das wohl von jq durcheinandergebracht anders sortiert (vermute ich) - und zwar hier.
Vielleicht hat ja jemand anderes einen Tipp?

Hab mal nachgesehen, ob aus dem YAML korrektes JSON wird:

INPUT:
Rechnung:
tagname: Rechnung
targetfolder: Rechnungen
condition: any
subrules:
- searchstring: Rechnung
searchtyp: contains
isRegEx: false
source: content
casesensitive: false
- searchstring: Lieferschein
searchtyp: contains
isRegEx: false
source: content
casesensitive: false
Saturn:
tagname: Saturn
targetfolder: Rechnungen
condition: any
subrules:
- searchstring: Saturn
searchtyp: contains
isRegEx: false
source: content
casesensitive: false
MediaMarkt:
tagname: MediaMarkt
targetfolder: Rechnungen
condition: any
subrules:
- searchstring: "Media Markt"
searchtyp: contains
isRegEx: false
source: content
casesensitive: false
koffer.com:
tagname: koffer.com
targetfolder: Rechnungen
condition: any
subrules:
- searchstring: koffer.com
searchtyp: contains
isRegEx: false
source: content
casesensitive: false
OUTPUT:
{
"MediaMarkt": {
"condition": "any",
"subrules": [
{
"casesensitive": false,
"isRegEx": false,
"searchstring": "Media Markt",
"searchtyp": "contains",
"source": "content"
}
],
"tagname": "MediaMarkt",
"targetfolder": "Rechnungen"
},
"Rechnung": {
"condition": "any",
"subrules": [
{
"casesensitive": false,
"isRegEx": false,
"searchstring": "Rechnung",
"searchtyp": "contains",
"source": "content"
},
{
"casesensitive": false,
"isRegEx": false,
"searchstring": "Lieferschein",
"searchtyp": "contains",
"source": "content"
}
],
"tagname": "Rechnung",
"targetfolder": "Rechnungen"
},
"Saturn": {
"condition": "any",
"subrules": [
{
"casesensitive": false,
"isRegEx": false,
"searchstring": "Saturn",
"searchtyp": "contains",
"source": "content"
}
],
"tagname": "Saturn",
"targetfolder": "Rechnungen"
},
"koffer_com": {
"condition": "any",
"subrules": [
{
"casesensitive": false,
"isRegEx": false,
"searchstring": "koffer.com",
"searchtyp": "contains",
"source": "content"
}
],
"tagname": "koffer.com",
"targetfolder": "Rechnungen"
}
}

Wie man sieht, stimmt schon hier die Reihenfolge nicht, bevor es zu jq kommt.

Das Problem ist hier also stattdessen yq und der Bug wurde hier gefixt. Du verwendest noch yq in der Version 3.3, ab Version 3.4.1 ist der Bug gefixt :)

edit: mal getestet, mit Version 3.4.1 siehts gut aus
 
Zuletzt bearbeitet:

reneh

Benutzer
Mitglied seit
21. Jun 2021
Beiträge
6
Punkte für Reaktionen
1
Punkte
3
Habe von hier die Version 3.4.1 geladen und es hat direkt funktioniert. Also hab für meine DS218+ die Version yq_linux_386 genommen.
 

s-tyle

Benutzer
Mitglied seit
30. Nov 2020
Beiträge
28
Punkte für Reaktionen
3
Punkte
3
Für unerwünschte Daten kannst du eine Blacklist in der GUI angeben. Diese werden dann übersprungen. Damit das funktioniert, musst du auf die Syntax achten (blaues Info-i).
Hallo, wie üblich erstmal Danke für die schnelle Antwort. Ich habe tatsächlich parallel beim weiterlesen hier den hinweis auf ein update gesehen, was genau diese Funktion brachte, und siehe da, das Feld gab es bei mir schon nach den Updates letzte Tage... :giggle:
Das funktioniert auch soweit ich das sehe, bzgl. der Syntax von mir noch die Anmerkung: Das Muster mit den "unmöglichen Daten" ist mit Semikolon als Trennzeichen geschrieben, so habe ich es auch gemacht, was zu funktionieren scheint. Im Info-I wird das Leerzeichen als Trennzeichen angegeben (ich habe das nicht ausprobiert, vielleicht geht auch beides).

Den anderen Teil Deiner Antwort und die folgenden Antworten verstehe ich so, dass ich das schon Richtig sehe, die Ursache für dieses Feature aber an einer Stelle liegt, die ich nicht verstehe und deshalb aus gutem Grund nicht erreichen kann...

Danke.

Ergänzung: Die fortlaufende Nummerierung an den Regelnamen hat damit nichts zu tun, oder? Ist die für irgendwas notwendig oder kann die auch einfach weg?
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.377
Punkte
234

Kaestorfer

Benutzer
Mitglied seit
14. Jun 2021
Beiträge
13
Punkte für Reaktionen
3
Punkte
3
Ertsmal vielen Dank für deine Mühe @geimist. Habe es seit heute auch auf meiner 220+ am Laufen.

Eine Frage habe ich: Welches Programm nutzt ihr, damit ihr per Suche die korrekten .pdf-Dateien angezeigt bekommt. Beispiel: Ich habe eine Ikea Rechnung eingescannt und würde diese dann gerne per Suche angezeigt bekommen. Windows macht dies aber leider nicht und zeigt mir auf meinem NAS nichts an. Habe den NAS als Netzlaufwerk angebunden...

Danke für Eure Tipps!

Viele Grüße
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Also ich mache es über mein Tablett.
Habe den Ordner mit in die universal search genommen, auf der nas. Und nutze am. Tablett dann synology drive. Der kann das mit durchsuchen.
Am. Windows PC habe ich es noch nicht getestet, weil ich den ganz wenig brauche.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.377
Punkte
234
Das Problem ist hier also stattdessen yq und der Bug wurde hier gefixt. Du verwendest noch yq in der Version 3.3, ab Version 3.4.1 ist der Bug gefixt :)
Vielen Dank nochmal für deine Hilfe!

Welches Programm nutzt ihr, damit ihr per Suche die korrekten .pdf-Dateien angezeigt bekommt. … Habe den NAS als Netzlaufwerk angebunden...
Da geht wohl ab Drive 3.0 (DSM 7). Sonst halt nur über den Umweg der Synchronistation oder direkt in Universal Search.
 

reneh

Benutzer
Mitglied seit
21. Jun 2021
Beiträge
6
Punkte für Reaktionen
1
Punkte
3
Eine Frage habe ich: Welches Programm nutzt ihr, damit ihr per Suche die korrekten .pdf-Dateien angezeigt bekommt.

Ich hab die Ordner der Synology per AFP am Mac eingebunden und er findet die Dokumente mit der normalen Filer-Suche anhand der Inhalte. Das müsste bei SMB/Windows ähnlich sein. Evtl. musst du noch die Indizierung für den Share in Windows aktivieren (letzter Schritt): https://www.online-tech-tips.com/windows-10/add-network-folder-to-windows-search-index/

Vielen Dank nochmal für deine Hilfe!

Gerne :) mal eine Frage zu DSM 7: was erschwert eigentlich die Portierung? Die neue Struktur der Pakete oder etwas im OS selbst? Habe nämlich bereits den RC bei mir am Laufen und mir jetzt erstmal mit Virtual DSM in einer VM beholfen, damit ich dein Paket nutzen kann.
 
  • Like
Reaktionen: Kaestorfer

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.377
Punkte
234
…mal eine Frage zu DSM 7: was erschwert eigentlich die Portierung? Die neue Struktur der Pakete oder etwas im OS selbst? Habe nämlich bereits den RC bei mir am Laufen und mir jetzt erstmal mit Virtual DSM in einer VM beholfen, damit ich dein Paket nutzen kann.
Eigentlich wollte sich @voodoo44 um die Anpassung kümmern. Er hatte wohl schon während der Betaphase das Paket weitestgehend angepasst. Allerdings gab es ein Problem mit der Erstellung des Synotokens (das ging nur per root - Pakete dürfen aber nicht mehr unter root laufen). Laut dem Support wäre das ein Bug der gefixt werden sollte. Seit der Veröffentlichung des RC war @voodoo44 hier nicht mehr online. Tosobosos Lösung besteht darin, die Originaldateien aus dem DSM in das Paket zu legen. Diese Dateien sind aber z.T. binärabhängig (laufen also nicht plattformunabhängig). Ich wüsste gern, ob es seit dem RC einfacher geht. Wenn nicht, müssen wir wohl diesen Weg gehen. Aus meiner Sicht ist LogAnalysis von Tommes aufgrund des gleichen Paketaufbaus ein gutes Muster.

… was erschwert eigentlich die Portierung?
Meine Gesundheit ist meinerseits der limitierende Faktor. Daher bin ich (alle) für jede Unterstützung dankbar ??
 

Kaestorfer

Benutzer
Mitglied seit
14. Jun 2021
Beiträge
13
Punkte für Reaktionen
3
Punkte
3
Ich hab die Ordner der Synology per AFP am Mac eingebunden und er findet die Dokumente mit der normalen Filer-Suche anhand der Inhalte. Das müsste bei SMB/Windows ähnlich sein. Evtl. musst du noch die Indizierung für den Share in Windows aktivieren (letzter Schritt): https://www.online-tech-tips.com/windows-10/add-network-folder-to-windows-search-index/
Schade. Das klappt zwar für den Ordner, aber er durchsucht mir nicht die .PDF-Dateien. Hier gibt es scheinbar bisher keine Lösung...
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.377
Punkte
234
Aus den Release Notes für DSM 7:
  • In Windows File Explorer, users can now search for the files and their content in indexed folders.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat