synOCR synOCR - GUI für OCRmyPDF

koehntopp

Benutzer
Mitglied seit
18. Jan 2021
Beiträge
18
Punkte für Reaktionen
2
Punkte
53
Den Fehler bzgl. des Updates konnte ich noch nicht eingrenzen. Man kann das Paket von cphub auf jeden Fall manuell herunterladen und manuell installieren.

Hmmm... 1.1.99.1 läuft derzeit, "Update verfügbar" wird angezeigt. Bei klick auf "Aktualisierung" kommt folgende log Meldung

2021-07-23T13:26:42+02:00 nas synowebapi_x86_64_SYNO.Core.Desktop.Initdata_1_get[21422]: init/InitDataHandler.cpp:196 Failed to run as root to get LDAP or WinsIsJoined
2021-07-23T13:26:42+02:00 nas synowebapi_x86_64_SYNO.Core.Desktop.Initdata_1_get[21422]: init/InitDataHandler.cpp:132 Failed to run as root to get DSM version
2021-07-23T13:26:42+02:00 nas synowebapi_x86_64_SYNO.Core.Desktop.Initdata_1_get[21422]: SynoSettings.cpp:209 LoadJsonFile failed to run as root
2021-07-23T13:26:42+02:00 nas synowebapi_x86_64_SYNO.Core.Desktop.Initdata_1_get[21422]: APIRunner.cpp:1194 set eid to root failed [Operation not permitted]
2021-07-23T13:26:42+02:00 nas synowebapi_x86_64_SYNO.Core.Desktop.Initdata_1_get[21422]: APIRunner.cpp:1197 (21422) setgroups(groupCount, groups) Failed [err: Operation not permitted]
Danach erscheint das GUI mit der Meldung wie oben.

Docker läuft selbstverständlich (mit 9 Containern). Sieht für mich nach einem Berechtigungsproblem aus.

Die gleiche Meldung im Log kommt nach jedem Lauf des Aufgabenplaners. Und ja, er läuft als root ;)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234

koehntopp

Benutzer
Mitglied seit
18. Jan 2021
Beiträge
18
Punkte für Reaktionen
2
Punkte
53
/var/log/messages

Manuelles Update auf 1.1.901 hat funktioniert, synOCR läuft auch (wie vorher) beschwerdefrei durch.

Die Meldung in /var/log/messages wie auch der Verweis auf fehlendes Docker in synOCR GUI bleiben identisch.

?????
 

FoxageX

Benutzer
Mitglied seit
09. Jul 2021
Beiträge
20
Punkte für Reaktionen
2
Punkte
3
YAML:
Regel_1:
    tagname: "Abrechnung hmemk"
    targetfolder: /volume1/documents/Gehalt/
    condition: all
    subrules:
    - searchstring: Abrechnung
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: Bill Gates
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false

Ergebnis:
Der Tag Abrechnung hmemk wird gesetzt, wenn Abrechnung und Bill Gates in im Dokument gefunden werden.

Diesen Block kannst du beliebig für weiter Tags wiederholen (die 1. Zeile muss eindeutig sein). Du kannst auch beliebig viele Subrules anlegen, um Regeln noch mehr einzugrenzen.
Hallo @geimist,
liebe Community,

ich habe ein Anliegen zur Dateibenennung und nehme das oben stehende Zitat einmal als Grundlage.

Mit meiner Konfiguration erhält der Dateiname nicht den Tag "Abrechnung hmemk", sondern die beiden searstrings "Abrechnung" und "Bill Gates" (Beispiel: 2021-07-25_#Abrechnung#Bill Gates.pdf).

Woran kann dies liegen? Sind in der GUI noch entsprechende Anpassungen vorzunehmen, damit dies klappt?

Besten Dank vorab!
 

FoxageX

Benutzer
Mitglied seit
09. Jul 2021
Beiträge
20
Punkte für Reaktionen
2
Punkte
3
Hallo @geimist,
liebe Community,

ich habe ein Anliegen zur Dateibenennung und nehme das oben stehende Zitat einmal als Grundlage.

Mit meiner Konfiguration erhält der Dateiname nicht den Tag "Abrechnung hmemk", sondern die beiden searstrings "Abrechnung" und "Bill Gates" (Beispiel: 2021-07-25_#Abrechnung#Bill Gates.pdf).

Woran kann dies liegen? Sind in der GUI noch entsprechende Anpassungen vorzunehmen, damit dies klappt?

Besten Dank vorab!

Da war ich wohl etwas voreilig am Abzug. Ich hatte 2 Regeln bestimmt, die beide den Tag "Abrechnung" zum Gegenstand haben. Somit waren 2 Regeln gültig, sodass die Tags im Dateinamen entsprechend gesetzt worden.
 

Laroxyt

Benutzer
Mitglied seit
25. Jul 2021
Beiträge
2
Punkte für Reaktionen
0
Punkte
1
Hallo zusammen
Vielen Dank für die Anleitungen zu OCRmyPDF für DSM 7.
Ich habe es jetzt auch zum Laufen gebracht.

Leider scant es nicht den gesamten Text.
Bei den untereren Zeilen fehlen ganze Wörter und weiter unten dann die ganze Zeile:

4QUC1dssVN.png

Habe auch schon verschiedene Parameter versucht und die englische Sprache zum Testen herausgenommen.
Ausserdem habe ich beide Images ausprobiert. Geimist und jbarlow83.
(Die jeweils nicht markierten letzten Zeichen in den Wörtern oberhalb des Textes werden trotzdem mit-kopiert).
Wenn ich das PDF im Nachhinein durch den Adobe Acrobat laufen lasse, wird alles erkannt.

Hat jemand eine Idee?

Gruss
Laroxyt
 

herrtim

Benutzer
Mitglied seit
15. Mrz 2016
Beiträge
44
Punkte für Reaktionen
0
Punkte
6
Hallo Zusammen,
gibt es irgendwo noch eine Beschreibung zu den Profilen?
Wie verhalten die sich? Werden diese in der Reihenfolge im Dropdown nach abgearbeitet? Falls ja, kann man die Reihenfolge irgendwie ändern?
Ich bin gerade dabei mehrere Profile zu erstellen und habe ein Default Profil welches die Dateien die gezielt nach Tags durchsucht. Ich möchte natürlich das zuerst alle umfangreichen Profile überprüft werden, bevor das Default Profil greift.

Edit: Irgendetwas scheint da nicht zu klappen. Ich habe in einem Profil die Tags: Kita; Kostenbeitrag und das Profil wird auf ein Dokument von der Bank angewendet in dem keines der Tags vorkommt...

Gruß Tim
 
Zuletzt bearbeitet:

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Mal eine Frage die hier nicht so richtig hingehört.
Habt ihr dsm 7 manuell installiert oder habt ihr das Auto autoupdate angeboten bekommen?
Habe eine ds218+ und bisher nichts.
Bin seit gestern aus dem Urlaub wieder zuhause und dachte jetzt ist das Update da?. Klar kann ich manuell updaten, wollte nur mal wissen ob das bei synology immer so lange dauert.
Gruß Thorsten
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234
Wie verhalten die sich? Werden diese in der Reihenfolge im Dropdown nach abgearbeitet?
Das kann ich dir nicht genau sagen - da müsste ich mir den Code angucken. Ich sah dafür bisher auch keine Notwendigkeit, die Reihenfolge zu berücksichtigen, da unterschiedliche Profile eigentlich auch unterschiedliche Eingabeordner abarbeiten sollen.

Edit: Irgendetwas scheint da nicht zu klappen. Ich habe in einem Profil die Tags: Kita; Kostenbeitrag und das Profil wird auf ein Dokument von der Bank angewendet in dem keines der Tags vorkommt...
Kannst du mir mal deinen Workflow schildern? Ggf. bräuchte ich ein Log des entsprechenden Dokuments.

Habt ihr dsm 7 manuell installiert oder habt ihr das Auto autoupdate angeboten bekommen?
Soweit ich weiß, wird DSM7 noch nicht automatisch angeboten. Die lassen erstmal alle Ungeduldigen ran ;)
 
  • Like
Reaktionen: Gthorsten

herrtim

Benutzer
Mitglied seit
15. Mrz 2016
Beiträge
44
Punkte für Reaktionen
0
Punkte
6
Ok, der Punkt mit den Profilen ist jetzt verständlicher :) Ich hatte nur einen Eingabeordner für unterschiedliche Profile und habe den Ansatz verfolgt, für jede Dokumentenart ein Profil zu erstellen.
Ich bin jetzt dazu übergegangen eine externe Regeldatei zu erstellen und dort alles abzufangen. Das klappt schon mal ganz gut :)
 

Andy+

Benutzer
Sehr erfahren
Mitglied seit
25. Jan 2016
Beiträge
5.349
Punkte für Reaktionen
473
Punkte
189
das Auto autoupdate

Das würde ich niemals machen in diesem Stadium. Autoupdate habe ich vor kurzem auf allen DS´n deaktiviert. Diejenigen, die nur Synology-APP´s verwenden, können zumindest einigermassen sicher sein, dass auch alles funktioniert nach dem Update. Allerdings, wenn ich zB. die laufenden Diskussionen um Photos so mitbekomme, ist das auch so eine Sache.

Vor einem Update ist auf jeden Fall ein vollständiges Backup uneingeschränkte Pflicht (!).
 

herrtim

Benutzer
Mitglied seit
15. Mrz 2016
Beiträge
44
Punkte für Reaktionen
0
Punkte
6
Eine Frage habe ich doch noch :)
Wie kann denn eine Default Rule aussehen? Was ich damit meine ist folgendes:
1. Regel "Bank"
2. Regel "Kita"
3. Regel "Versicherung"
4. Regel "Rechnung"
5. Regel "Ablage"

Die fünfte Regel soll greifen wenn keine der vorherigen Regeln gegriffen hat. Hier sollen die Dokumente in einen Ordner "Ablage" verschoben werden.
Aktuell sieht diese Regel bei mir so aus:

Regel 4:
Vodafone:
tagname: "Rechnung Vodafone"
targetfolder: "/volume1/Dokumente/Haus/Internet & Telefon/Vodafone/"
condition: all
subrules:
- searchstring: "Vodafone"
searchtyp: contains
isRegEx: false
source: content
casesensitive: false
- searchstring: "Rechnung"
searchtyp: contains
isRegEx: false
source: content
casesensitive: false

Regel 5:
Ablage:
tagname: "Dokument"
targetfolder: "/volume1/Dokumente/Ablage/"
condition: none

Durch die Condition wird die fünfte Regel aber immer angewendet... Beispiel: "2021-01-09 DokumentRechnung Vodafone.pdf"
Hier hat Regel 4 und Regel 5 gegriffen.
 

koehntopp

Benutzer
Mitglied seit
18. Jan 2021
Beiträge
18
Punkte für Reaktionen
2
Punkte
53
Nach dem Update der Beta und Anpassung im Zeitplaner lief erstmal nichts mehr, daher habe ich mal neu installiert, vorher alte Installation und Konfiguration gelöscht.

Der manuelle run des Skripts meckert:

root@nas:~# /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh
synOCR wurde gestartet ...
Bitte warten, bis die Dateien fertig abgearbeitet wurden.
Error: no such table: config

Im GUI kann ich keine neue Konfiguration ablegen, und die Meldung "Docker nicht gefunden" kommt auch.
Den synOCR User habe ich auf die PDF Verzeichnisse berechtigt

Ursache ist scheinbar immer die gleiche - es scheint als ob das "Upgrade" des synOCR Users auf root-Rechte nicht klappt:

2021-07-26T11:29:53+02:00 nas synowebapi_x86_64_SYNO.Core.Desktop.Initdata_1_get[17804]: init/InitDataHandler.cpp:196 Failed to run as root to get LDAP or WinsIsJoined
2021-07-26T11:29:53+02:00 nas synowebapi_x86_64_SYNO.Core.Desktop.Initdata_1_get[17804]: init/InitDataHandler.cpp:132 Failed to run as root to get DSM version
2021-07-26T11:29:53+02:00 nas synowebapi_x86_64_SYNO.Core.Desktop.Initdata_1_get[17804]: SynoSettings.cpp:209 LoadJsonFile failed to run as root
2021-07-26T11:29:53+02:00 nas synowebapi_x86_64_SYNO.Core.Desktop.Initdata_1_get[17804]: APIRunner.cpp:1194 set eid to root failed [Operation not permitted]
2021-07-26T11:29:53+02:00 nas synowebapi_x86_64_SYNO.Core.Desktop.Initdata_1_get[17804]: APIRunner.cpp:1197 (17804) setgroups(groupCount, groups) Failed [err: Operation not permitted]

Bin gerade etwas ratlos...
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234
Durch die Condition wird die fünfte Regel aber immer angewendet... Beispiel: "2021-01-09 DokumentRechnung Vodafone.pdf"
Hier hat Regel 4 und Regel 5 gegriffen.
condition bezieht sich auf die nachstehenden Subrules, nicht auf andere Hauptregeln.
Ich würde an deiner Stelle einen anderen Ansatz verfolgen: Definiere in der GUI einfach deinen Ablageordner als Haupt-Ausgabeordner. Alle Dateien, für die kein regelbasierter Ausgabeordner greift, verbleiben in deinem Ausgabeordner.

BTW:
Bitte Code auch beim Posten entsprechend kennzeichnen (YAML auswählen). Zum einen kann man es schlecht lesen und zum anderen gehen Syntaxfehler so z.T. unter.

Bildschirmfoto 2021-07-26 um 11.23.05.png
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234
@koehntopp:
Bei dir scheint es mehrere Probleme zu geben.

Offensichtlich wurde die Konfigurationsdatenbank nicht korrekt erstellt. Kannst du in der GUI mal die DB herunterladen und mir schicken (link in der Signatur).

Das mit Docker wundert mich nach wie vor. Ich lass mir was einfallen.

Hast du eine Sicherung von synOCR mit HyperBackup? Die könntest du mal zurückspielen. Dann sollte das mit dem 'config'-Fehler schonmal passen (ich würde mir dennoch gerne mal die beschädigte Version vorher mal angucken).
 

herrtim

Benutzer
Mitglied seit
15. Mrz 2016
Beiträge
44
Punkte für Reaktionen
0
Punkte
6
Danke für den Hinweis! Wie kann ich die Benennung für allgemeine Dokumente machen?
In der GUI habe ich als OCR Rename-Syntax folgendes angegeben: "§y-§m-§d §tag"
Den §tag erhält er durch die Regeldatei. Bei allgemeinen Dokumenten wird §tag leer sein, d.h. die Datei hat dann nur das Datum als Namen. Kann ich dem Namen noch irgendwie etwas hinzufügen?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234
Du kannst die Umbenennungssyntax auch um normalen Text ergänzen, allerdings werden dann alle Dokumente diesen Text hinzugefügt bekommen.
 

herrtim

Benutzer
Mitglied seit
15. Mrz 2016
Beiträge
44
Punkte für Reaktionen
0
Punkte
6
Die Benennung greift aber immer für alle Regeln innerhalb eines Profils, korrekt?
Ich habe jetzt den Fall, dass das Datum im Dokument mit Monatsnamen und nicht in Zahlen angegeben ist. Mit Regex bekomme ich den Monat ausgelesen, allerdings weiß ich nicht, ob es möglich ist den Monat in die Benennung zu übergeben.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat