synOCR synOCR - GUI für OCRmyPDF

collaborator

Benutzer
Mitglied seit
26. Mai 2009
Beiträge
6
Punkte für Reaktionen
1
Punkte
3
  1. Wenn es im Inkognito-Modus funktioniert, weiß ich nicht, was ich ändern könnte. Wie sieht es mit einem anderen Browser aus?
  2. der eleganteste Weg wäre über Hyperbackup. Wenn das nicht vorhanden ist, kannst du deine bestehende DB über die Shell so kopieren (geht auch im Aufgabenplaner und einmal ausführen):
    WICHTIG: Passe den Pfad zur Quelldatei an!
    Bash:
    cp -f "/volume…<PFAD>/synOCR.sqlite" /usr/syno/synoman/webman/3rdparty/synOCR/etc/synOCR.sqlite


Hallo

Jezt es funktioniert :)

Wie kann ich zusätzliche Sprache in ocrmypdf installieren? @geimist

Danke
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234
Dann solltest du das geimist/ocrmypdf-polyglot Image auswählen. Als Parameter musst du die entsprechende Sprache angeben. Optional kannst du auch mehrere Sprachen kombinieren. Hier ein Beispiel für Deutsch und Türkisch: -l deu+tur

Bildschirmfoto 2021-11-08 um 20.28.50.png
 
  • Like
Reaktionen: collaborator

fjsw

Benutzer
Mitglied seit
01. Sep 2021
Beiträge
19
Punkte für Reaktionen
1
Punkte
3
Hallo zusammen,
ja, ich bin nach vielen Stunden Konfigurationsfrust reumütig von paperless-ng zu synocr zurückgekehrt. Jetzt hoffe ich, dass Ihr mir meinen kleinen Exkurs nicht krumm nehmt und mir mit meinen Problemchen behilflich seid... Ich möchte gern, dass die OCR-ten PDF-Dokumente umbenannt werden nach dem Schema "datum-firma-betreff.pdf". Dabei sollten folgende Eigenschaften erfüllt werden:
- Datum: möglichst das erste im Dokument gefundene Datum. Wenn kein Datum im Text gefunden, dann das aktuelle Datum.
- Firma: die erste aus einer vorgegebenen Tag-Liste ( "Firma1", "Firma2", ...) gefundene Firma
- Betreff: der erste aus einer vorgegebenen Tag-Liste gefundene Betreff ("Rechnung", "Gutschrift", "Bescheinigung"...)

Ist das mit dem tag-config-file zu realisieren? Ich müsste ja dazu z.B. einen tag "Firma" haben, welcher ich wie einer Variablen den im Text gefundenen Wert zuordnen kann. Genauso mit dem tag "Betreff".

Im Voraus vielen Dank für Euren Input!
LG fj
 

Jörg0815

Benutzer
Mitglied seit
12. Nov 2021
Beiträge
3
Punkte für Reaktionen
1
Punkte
3
Hallo in die Runde.

Ich habe Synocr mehr oder weniger erfolgreich eingerichtet. Bei mir werden allerdings die gewählten Ordner und Dateinamen als Output nicht erstellt, es gibt also keinen OrdneR „Ablage“ usw., eine Fehlermeldung bekomme ich im Log File aber auch nicht. ich komm leider nicht weiter und bitte um Rat.

ps: ich sehe keinen Nutzer mit dem Namen synocr-User, könnte das mein Problem sein?
1636734149497.png

Danke und Grüße Jörg


1636733748703.png
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234
Die Prüfung auf den Ordner lautet:
tag directories "Gehaltsabrechnung Amazon" exists? ? OK [subfolder target dir]

Ganz sicher, dass der Ordner /volume1/home/Ablage/Gehaltsabrechnung Amazon/ nicht vorhanden ist? Kannst du mal direkt in der Filestation nachsehen?
 
  • Like
Reaktionen: Jörg0815

Jörg0815

Benutzer
Mitglied seit
12. Nov 2021
Beiträge
3
Punkte für Reaktionen
1
Punkte
3
Hallo Stephan,

er ist definitiv nicht vorhanden, ich habe auch versucht die Ordner anzulegen aber auch dann legt er dort nichts ab.. Ich hänge seit Stunden an dem Problem.

Gruß Jörg

1636734973956.png
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234
Ich sehe gerade: Irgendetwas stimmt mit deinem Pfad nicht. Den Pfad /volume1/home/Ablage sollte es nicht regulär geben. Eher sollte er /volume1/homes/<USERNAME>/Ablage… lauten. Bitte prüfe das mal in deinen Pfadangaben.

Deshalb sage ich immer: Kontextmenü auf den Zielordner ? Eigenschaften und hier den Pfad herauskopieren.

(Das, was du in der Filestation siehst, ist lediglich eine Verknüpfung auf /volume1/homes/<dein Username>/)
 
  • Like
Reaktionen: Jörg0815

Jörg0815

Benutzer
Mitglied seit
12. Nov 2021
Beiträge
3
Punkte für Reaktionen
1
Punkte
3
You Made my day! Vielen Dank ? Entschuldige, ich bin absoluter Neuling.

schönen Start ins Wochenende dir!
 
  • Like
Reaktionen: geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234
@fjsw,

sorry für die späte Antwort.

Jetzt hoffe ich, dass Ihr mir meinen kleinen Exkurs nicht krumm nehmt und mir mit meinen Problemchen behilflich seid...
Warum sollte dir das jemand krumm nehmen. Tools sind dazu da, Probleme oder Aufgaben zu lösen. Nicht jedes Tool passt zu jeder Aufgabe oder jedem Geschmack ?

Ich werde versuchen, dir zu helfen. Aber alles wird nicht 1:1 funktionieren.

- Datum: möglichst das erste im Dokument gefundene Datum. Wenn kein Datum im Text gefunden, dann das aktuelle Datum.
Fast so funktioniert es. Allerdings wird bei einer negativen Suche im Dokument nicht das aktuelle Datum, sondern das Dateidatum genommen.

- Firma: die erste aus einer vorgegebenen Tag-Liste ( "Firma1", "Firma2", ...) gefundene Firma
Bisher kann man mit der YAML-Datei keine Funktionen realisieren. Mit etwas Fleiß sollte sich das aber realisieren lassen. Letztendlich musst du für jede Firma eine Regel erstellen, in der zum einen die gewünschte Firma enthalten sein muss, alle anderen dürfen es aber nicht.

YAML:
tagFirma_01:
    tagname: "HUK24"
    condition: all
    subrules:
    - searchstring: HUK24
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: Allianz
      searchtyp: "does not contain"
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: AXA
      searchtyp: "does not contain"
      isRegEx: false
      source: content
      casesensitive: false
tagFirma_02:
    tagname: "AXA"
    condition: all
    subrules:
    - searchstring: AXA
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: Allianz
      searchtyp: "does not contain"
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: HUK24
      searchtyp: "does not contain"
      isRegEx: false
      source: content
      casesensitive: false

- Betreff: der erste aus einer vorgegebenen Tag-Liste gefundene Betreff ("Rechnung", "Gutschrift", "Bescheinigung"...)
Hier wird es komplizierter. Wie gesagt: Funktionen als solche gibt es nicht. Wenn du eine definierte Liste von Tags hast, könnte man es ähnlich realisieren, wie mit den Firmen. Ob das deinen Anforderungen gerecht wird, weiß ich nicht … ????
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234
You Made my day! Vielen Dank ? Entschuldige, ich bin absoluter Neuling.

schönen Start ins Wochenende dir!

Sehr schön. Entschuldigen brauchst du dich nicht. Ich freue mich, dass es funktioniert. Der Ordnung halber sollten wir jetzt aber noch etwas aufräumen, denn die Zieldateien sind durchaus da - du siehst sie lediglich nicht.

Bist du mit der Konsole vertraut?
Könntest du mal bitte diesen Befehl hier absetzen: ls -la /volume1/home/Ablage/
(das geht zur Not auch im Aufgbenplaner als benutzerdefiniertes Skript, wenn man sich dann die Ausgabe anzeigen lässt).
 

Benares

Benutzer
Sehr erfahren
Mitglied seit
27. Sep 2008
Beiträge
13.701
Punkte für Reaktionen
3.694
Punkte
468
Kleine Anmerkung: /volume1/home gibt es physisch nicht, nur /volume1/homes/<Benutzer>
/home ist nur ein Konstrukt in Samba und in der Filestation, worüber jedem Benutzer sein Home-Verzeichnis eingeblendet wird.

Edit: Seh grad, das hatte ja @geimist in #1969 schon beschrieben
 
  • Like
Reaktionen: hergi

fjsw

Benutzer
Mitglied seit
01. Sep 2021
Beiträge
19
Punkte für Reaktionen
1
Punkte
3
...
sorry für die späte Antwort.
Hallo Stephan, das macht doch nix! Ich bin Dir sehr dankbar für JEDEN Support - egal wie schnell oder langsam!:)
...Allerdings wird bei einer negativen Suche im Dokument nicht das aktuelle Datum, sondern das Dateidatum genommen.
Kein Problem, damit kann ich auch gut leben.
Bisher kann man mit der YAML-Datei keine Funktionen realisieren. Mit etwas Fleiß sollte sich das aber realisieren lassen. Letztendlich musst du für jede Firma eine Regel erstellen, in der zum einen die gewünschte Firma enthalten sein muss, alle anderen dürfen es aber nicht.
Ja, so habe ich es jetzt gemacht. Bei knapp 100 Firmen (die, mit denen ich am meisten zu tun habe) hat das dazu geführt, dass mein yaml-file heute auf ca. 1300 Zeilen angeschwollen ist. Das bremst den Prozess ein wenig - aber es läuft jetzt schon ganz manierlich. Noch ein bisschen Feinschliff, dann bin ich mit dem Ergebnis gut zufrieden. Vielen Dank nochmal für Deine Unterstützung!
LG Franz Josef
 
  • Like
Reaktionen: geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234
Kleine Anmerkung: /volume1/home gibt es physisch nicht, …
Jetzt schon ?
(jedenfalls bei ihm)

Vom User angegebene Verzeichnisse werden rekursiv angelegt, sofern sie mit /volume… beginnen.
 

Penche1903

Benutzer
Mitglied seit
07. Jan 2020
Beiträge
20
Punkte für Reaktionen
0
Punkte
1
Hallo Zusammen,

habe synocr zwar zum laufen gebracht, aber irgendwie werde ich nach Textsuche nicht fündig.
Ich vermute mal, das es nur eine Einstellungssache ist, aber ich sehe den Wald vor lauter Bäume nicht mehr.

Nachfolgend die LOG Datei von mir.

Vielen Dank vorab


-----------------------------------
| ==> installation info <== |
-----------------------------------

synOCR-user: synOCR
synOCR-user is admin: yes
synOCR-version: 1.1.902
Architecture: x86_64
DSM-build: 42218
Device: 218plus (0006252336)
current Profil: default
DB-version: 4
WARNING: Error loading config file: .dockercfg: $HOME is not defined
used image (created): jbarlow83/ocrmypdf:latest (2021-11-04T07:42:52)
used ocr-parameter: -srd -l deu
replace search prefix: yes
renaming syntax: §y-§m-§d_§tag_§tit
Symbol for tag marking: #
Document split pattern:
source for filedate: ocr
ignored dates by search: 2021-02-29;2020-11-31
Docker Test: WARNING: Error loading config file: .dockercfg: $HOME is not defined
OK
Loglevel: normal
Application Directory: /usr/syno/synoman/webman/3rdparty/synOCR
Source directory: /volume1/Papierlos_Eingang/
Target directory: /volume1/Papierlos_Ausgang/
BackUp directory: /volume1/Papierlos_Backup/


----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------

PROCESSING: ? 2021-11-12-16h38m26s_scan_QuickScan.pdf (Fri Nov 12 18:40:43 CET 2021)
temp. target file: /tmp/tmp.ihZXe1Zlsf/2021-11-12-16h38m26s_scan_QuickScan.pdf

? OCRmyPDF-LOG:
WARNING: Error loading config file: .dockercfg: $HOME is not defined
reading file from standard input
1 skipping all processing on this page
Postprocessing...
Optimize ratio: 1.00 savings: -0.4%
Image optimization did not improve the file - optimizations will not be used
Output sent to stdout
? OCRmyPDF-LOG-END

target file (OK):
? search tags and date:
source for tags is yaml based tag rule file [/volume1/Papierlos_Eingang/_TagConfig_[profile_default].txt]
validate the integrity of yaml-file:
ERROR at line 612: rulenames=$(cat "${taglisttmp}" | egrep -v '^[[:space:]]|^#|^$' | egrep ':[[:space:]]?$')
rule name _612: was adjusted
rule name __:__:space:_____ was adjusted
syntax error in row ERROR at line 634 [value must be only "all" OR "any" OR "none"]
syntax error in row ERROR at line 643 [value must be only "true" OR "false"]
syntax error in row ERROR at line 652 [value must be only "content" OR "filename"]
syntax error in row ERROR at line 661 [value must be only "is" OR "is not" OR "contains" OR "does not contain" OR "starts with" OR "does not starts with" OR "ends with" OR "does not ends with" OR "matches" OR "does not match"]
syntax error in row ERROR at line 670 [value must be only "true" OR "false"]

rename tag is: ""

Using date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
Dates found: 1
check date (dd mm [yy]yy): 10.11.21
? valid
day: 10
month:11
year: 2021
? renaming:
apply renaming syntax ? 2021-11-10__2021-11-12-16h38m26s_scan_QuickScan
? edit metadata FAILED! - exiftool not found! Please install it over cphub.net if you need it
target file: 2021-11-10__2021-11-12-16h38m26s_scan_QuickScan.pdf
? Adapt file date (Source: OCR)
? move source file to: /volume1/Papierlos_Backup/2021-11-12-16h38m26s_scan_QuickScan.pdf
INFO: (notification dosn't work at DSM7 without i18n …)
./synOCR.sh: line 1389: /dev/ttyS1: Permission denied
ERROR at line 1389: echo 2 > /dev/ttyS1 > /dev/null
INFO: (PushBullet-TOKEN not set)

Stats:
? runtime last file: 00:00:19
? pagecount last file: 1
? file count profile : (profile default) - 2 PDF's / 2 Pages processed up to now
? file count total: 2 PDF's / 2 Pages processed up to now

? delete tmp-files …


-----------------------------------
| ==> synOCR ENDE <== |
-----------------------------------
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234
habe synocr zwar zum laufen gebracht, aber irgendwie werde ich nach Textsuche nicht fündig.
Wenn ich dich richtig verstehe, funktionieren die Regeln nicht?
Offensichtlich passt etwas in deiner Regeldatei nicht. Kannst du die mir mal hochladen (Link in meiner Signatur)?
 
  • Like
Reaktionen: Penche1903

Penche1903

Benutzer
Mitglied seit
07. Jan 2020
Beiträge
20
Punkte für Reaktionen
0
Punkte
1
Ob das die Regeldatei ist, kann ich Dir es wirklich nicht sagen.

Ich habe eine Datei eingescannt und in den Ordner Eingang kopiert.
Danach habe ich Synocr manuell ausführen lassen. Es packt auch die PDF Datei in den Ordner Ausgang.
Alles so wie es sein soll, aber wenn ich nach einem Wort suchen lasse, was im Dokument ist, findet es nichts.

Wo finde ich die Regeldatei? ????

Sorry bin ein Neuling der nicht viel Ahnung hat.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat