synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Kann man eigentlich auch in der Präfix-Vorgabe mehrere Vorgaben eingeben, als OR quasi?
Nein, dazu musst du mehrere Profile bemühen.
Der Rest im Profil kann ja beibehalten bleiben (Stichwort: klonen)
 
  • Like
Reaktionen: TJ.

SMArmageddon

Benutzer
Mitglied seit
01. Nov 2017
Beiträge
2
Punkte für Reaktionen
1
Punkte
53
Hallo zusammen,

ich habe eine Frage zur YAML Datei.
Kann ich irgendeine "Fallback-Regel" definieren? Also wenn keine definierte Regele greift, dann landet die Datei aktuell nur im Backup-Ordner. Das ist leider unpraktisch - mir würde es schon reichen, wenn ich einen Fallback-Ordner definieren könnte oder die Datei alternativ im Output-Ordner landet.
Ist das möglich?
Ich habe über Google gesucht und diesen Thread "quergelesen" aber nichts gefunden.

Vielen Dank,
Sebastian
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Kann ich irgendeine "Fallback-Regel" definieren?
Eine Art Priorisierung gibt es (noch) nicht, steht aber auf der ToDo-Liste.

Da fehlt mir noch etwas die Vision, wie das umgesetzt werden soll.
Gibt es Vorschläge❓

Also wenn keine definierte Regele greift, dann landet die Datei aktuell nur im Backup-Ordner.
Also eigentlich sollte sie dann 'nur' im Outputordner verbleiben.

Vielleicht kannst du mir mal ein Log Hochladen (Link in der Signatur)
 
Zuletzt bearbeitet:
  • Like
Reaktionen: 206HDI

SMArmageddon

Benutzer
Mitglied seit
01. Nov 2017
Beiträge
2
Punkte für Reaktionen
1
Punkte
53
Vielen Dank für die schnelle Antwort.
Eine Priorisierung klingt nach einer sinnvollen Ergänzung.

Die Datei landet tatsächlich im Output Ordner - ich hatte bei der Kontrolle auf meinem Client ein Berechtigungsproblem...

Alles gut und einen schönen Abend.
 
  • Like
Reaktionen: geimist

stevios

Benutzer
Mitglied seit
10. Nov 2013
Beiträge
43
Punkte für Reaktionen
0
Punkte
6
Hallo,

erst einmal vielen Dank für die Arbeit an der Software :)

Ich habe ein Problem mit Berechtigungen. BACKUP, INPUT, LOG liegen in einem Ordner namens /volume1/Scan-Ordner/ . Das jeweilige Ergebnis soll in einen Ordner im Home-Verzeichnes des Users, der auch synocr installiert hat (/volume1/homes/s_admin/Drive/Steuerunterlagen/). Wenn ich den Output-Ordner im Scan-Ordner-Verzeichnis wähle, klappt alles. Leider wird der Zugriff auf den eigentlich gewünschten Ordner verweigert. Wie erlaube ich hier den Zugriff?

Danke schon mal.

edit: Wenn ich synOCR via Aufgabenplaner ausführe, klappt es auch. Nur nicht manuell aus der synOCR-Oberfläche.

Code:
ynOCR-user:              synOCR
synOCR-user is admin:     yes
synOCR-version:           1.2.0
Architecture:             x86_64
DSM-build:                42218
Device:                   218plus (0861545056)
current Profil:           2021
DB-version:               5
WARNING: Error loading config file: .dockercfg: $HOME is not defined
used image (created):     jbarlow83/ocrmypdf:latest (2022-01-26T08:37:21)
used ocr-parameter (raw): -srd -l deu+eng
ocropt_array:             -srd -l deu+eng
search prefix:            2021
replace search prefix:    no
renaming syntax:        
Symbol for tag marking:   #
Document split pattern:  
Date search method:       use standard search via RegEx
source for filedate:      source
ignored dates by search:  2021-02-29;2020-11-31
Docker test:              WARNING: Error loading config file: .dockercfg: $HOME is not defined
OK
DSM notify to user:       s_admin
Loglevel:                 normal
max. count of logfiles:   10
Source directory:         /volume1/Scan-Ordner/INPUT/
Target directory:         /volume1/homes/s_admin/Drive/Steuerunterlagen/2021/
BackUp directory:         /volume1/Scan-Ordner/BACKUP/
rotate backupfiles after: (purge backup deactivated)



    ----------------------------------
    |    ==> Funktionsaufrufe <==    |
    ----------------------------------

PROCESSING:   ➜ 2021 TEST.pdf (Mon Jan 31 14:53:14 CET 2022)
                  temp. target file: /tmp/tmp.1ctBTBOarv/2021 TEST.pdf

              ➜ OCRmyPDF-LOG:
                WARNING: Error loading config file: .dockercfg: $HOME is not defined
                reading file from standard input
                    1 page is facing ⇧, confidence 8.69 - no change
                Postprocessing...
                Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF's XMP metadata.
                Optimize ratio: 1.00 savings: 0.0%
                Output sent to stdout
              ← OCRmyPDF-LOG-END

                target file (OK): /tmp/tmp.1ctBTBOarv/2021 TEST.pdf

mv: cannot create regular file '/volume1/homes/s_admin/Drive/Steuerunterlagen/2021/temp_2021 TEST_1643637242.pdf': Permission denied
ERROR at line 1672: mv "${outputtmp}" "${output}"
I/O Error: Couldn't open file '/volume1/homes/s_admin/Drive/Steuerunterlagen/2021/temp_2021 TEST_1643637242.pdf': No such file or directory.
ERROR at line 1696: /bin/pdftotext -layout $pdftotextOpt "$output" "$searchfile"
sed: can't read /tmp/tmp.1ctBTBOarv/synOCR.txt: No such file or directory
ERROR at line 1697: sed -i 's/^ *//' "$searchfile"
cat: /tmp/tmp.1ctBTBOarv/synOCR.txt: No such file or directory
ERROR at line 1699: content=$(cat "$searchfile" )
              ➜ search tags and date:
                no tags defined
                  Using date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
                  Using date format: 2 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
                  Using date format: 3 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
                  Date not found in OCR text - use file date:
                  day:  31
                  month:01
                  year: 2022
              ➜ renaming:
                  apply renaming syntax ➜ 2021 TEST
              ➜ edit metadata FAILED! - exiftool not found! Please install it over cphub.net if you need it
ls: cannot open directory '/volume1/homes/s_admin/Drive/Steuerunterlagen/2021/': Permission denied
                  target file: 2021 TEST.pdf
mv: cannot stat '/volume1/homes/s_admin/Drive/Steuerunterlagen/2021/temp_2021 TEST_1643637242.pdf': No such file or directory
ERROR at line 1338: mv "${outputtmp}" "${output}"
cp: cannot create regular file '/volume1/homes/s_admin/Drive/Steuerunterlagen/2021/2021 TEST.pdf': Permission denied
ERROR at line 1011: cp --attributes-only -p "${input}" "${output}"
chmod: cannot access '/volume1/homes/s_admin/Drive/Steuerunterlagen/2021/2021 TEST.pdf': No such file or directory
ERROR at line 1012: chmod 664 "${output}"
ERROR at line 1013: synoacltool -enforce-inherit "${output}"
              ➜ Adapt file date (Source: Source file)
touch: cannot touch '/volume1/homes/s_admin/Drive/Steuerunterlagen/2021/2021 TEST.pdf': Permission denied
ERROR at line 1034: touch --reference="$input" "$output"
              ➜ move source file to: /volume1/Scan-Ordner/BACKUP/2021 TEST.pdf
./synOCR.sh: line 1779: /dev/ttyS1: Permission denied
ERROR at line 1779: echo 2 > /dev/ttyS1
                  INFO: (PushBullet-TOKEN not set)

              Stats:
                  ➜ runtime last file:    00:00:53
                  ➜ pagecount last file:  1
                  ➜ file count profile :  (profile 2021) - 9 PDF's / 9 Pages processed up to now
                  ➜ file count total:     9 PDF's / 9 Pages processed up to now

              ➜ delete tmp-files …
              ➜ purge logfiles:
              ➜ purge backup deactivated
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Du musst dem User synOCR die nötigen Rechte geben. Bei einem Aufruf über den Aufgabenplaner als root sollte es keine Probleme geben.
 
Zuletzt bearbeitet:
  • Like
Reaktionen: stevios

gunfran

Benutzer
Mitglied seit
25. Nov 2014
Beiträge
31
Punkte für Reaktionen
17
Punkte
58
Ich habe ein Problem mit Berechtigungen. BACKUP, INPUT, LOG liegen in einem Ordner namens /volume1/Scan-Ordner/ . Das jeweilige Ergebnis soll in einen Ordner im Home-Verzeichnes des Users, der auch synocr installiert hat (/volume1/homes/s_admin/Drive/Steuerunterlagen/). Wenn ich den Output-Ordner im Scan-Ordner-Verzeichnis wähle, klappt alles. Leider wird der Zugriff auf den eigentlich gewünschten Ordner verweigert. Wie erlaube ich hier den Zugriff?
Wie geimist sicher schon richtig geschrieben hat muss der user Rechte haben in den Userbereich von deinem s_admin zu schreiben.
Ich glaube du willst sicher in den userbereich schreiben, weil du den Ordner mit deinem Rechner synchron hälst.

Ein Vorschlag meinerseits wäre vielleicht ob du nicht überlegen willst einen eigenen Freigabeordner machen willst z.B. mit Damen DokuArchiv oder so. Du kannst dann ja den Gruppen/Benutzern in deinem NAS Zugriff auf diesen Ordner geben/verweigern.
Über Synology-Drive könntest du den Ordner "DokuArchiv" trotzdem als Team-Ordner synchronisieren.

Nur mal so als Idee für dich.
Du bist ja vielleicht auch noch in einer Phase in der man noch gar nicht so ganz weiß was man wo am optimalsten hinlegen will.
Ich nutze das synOCR schon bestimmt ein Jahr und finde immer noch Möglichkeiten meine Organisation zu verbessern und bin sicher noch längst nicht am Ende.
 
  • Like
Reaktionen: stevios

commanderi

Benutzer
Mitglied seit
25. Mrz 2011
Beiträge
205
Punkte für Reaktionen
4
Punkte
18
Hallo Leute, manchmal verstehe ich synocr nicht. Habe gerade eine Rechnung von einem Anbieter hochgeladen, diese ist exakt gleich zu 2021 nur eben halt aus 2022. Wenn ich jetzt in Drive nach dem Anbieter suche, findet er nur die Rechnung aus 2021, die aus 2022 findet er überhaupt nicht, egal was ich da für einen Suchbegriff aus der Rechnung eingebe.

Frage, kann man irgendwo die OCR Texterkennung nachschauen, was er von einem Dokument erkennt ?

Danke
 

commanderi

Benutzer
Mitglied seit
25. Mrz 2011
Beiträge
205
Punkte für Reaktionen
4
Punkte
18
Ohje, das ist die LOG-Datei, der erkennt da ja nix.
 

Anhänge

  • Bildschirmfoto 2022-02-03 um 08.25.48.png
    Bildschirmfoto 2022-02-03 um 08.25.48.png
    138,4 KB · Aufrufe: 19
Zuletzt bearbeitet von einem Moderator:

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Da kann ich dir jetzt auch nicht weiter helfen. Aber Stefan, von dem das ganze ist, liest hier ja mit. Vielleicht hat er eine Idee..
 
  • Like
Reaktionen: commanderi

commanderi

Benutzer
Mitglied seit
25. Mrz 2011
Beiträge
205
Punkte für Reaktionen
4
Punkte
18
Habe jetzt mal von der Rechnung ein Bildschirmfoto auf meinem MacBook gemacht und dann dann als PDF gespeichert und damit geht es. Scheint dann wohl irgendein PDF Format zu sein womit Synocr Probleme hat.
 
Zuletzt bearbeitet von einem Moderator:

MrNeon

Benutzer
Mitglied seit
10. Mai 2011
Beiträge
75
Punkte für Reaktionen
5
Punkte
8
@commanderli, hatte ich auch schon … besitzt das PDF schon OCR-Textmarker ? Mit welchen Parameter liest Du ein? Es muss wohl -s und auf keinen Fall -f sein … ansonsten scan die Rechnung einfach mal mit dem Handy ohne OCR ein und schieb sie durch OCRmyPDF und guck, ob es dann besser ist.
 

commanderi

Benutzer
Mitglied seit
25. Mrz 2011
Beiträge
205
Punkte für Reaktionen
4
Punkte
18
besitzt das PDF schon OCR-Textmarker ? Mit welchen Parameter liest Du ein? Es muss wohl -s und auf keinen Fall -f sein
Danke für den Hinweis, dazu zwei Fragen.

1. Woran erkenne ich ob ein PDF schon einen OCR-Textmarker besitzt
2. Und wo genau kommt das -s hin bei den Einstellungen?
meine: -srd -l deu+eng
neu: -srd -l deu+eng -s
 

Anhänge

  • Bildschirmfoto 2022-02-03 um 08.48.14.png
    Bildschirmfoto 2022-02-03 um 08.48.14.png
    160,8 KB · Aufrufe: 4

MrNeon

Benutzer
Mitglied seit
10. Mai 2011
Beiträge
75
Punkte für Reaktionen
5
Punkte
8
… neee Deine (erste) war schon richtig … das nachgestellte -s wieder rausnehmen … warum er dann das File fehlerhaft einliest weiss ich nicht. Und woran Du erkennen kannst, ob es schon ein OCR oder geschütztes PDF ist leider auch nicht 😳
 

commanderi

Benutzer
Mitglied seit
25. Mrz 2011
Beiträge
205
Punkte für Reaktionen
4
Punkte
18
Ok, danke! Welche OCR Erkennung ist die bessere ?
 

Anhänge

  • Bildschirmfoto 2022-02-03 um 08.57.08.png
    Bildschirmfoto 2022-02-03 um 08.57.08.png
    79,8 KB · Aufrufe: 16
Zuletzt bearbeitet von einem Moderator:

MrNeon

Benutzer
Mitglied seit
10. Mai 2011
Beiträge
75
Punkte für Reaktionen
5
Punkte
8
… besser ist wohl relativ … ich nehme die obere …
 
  • Like
Reaktionen: commanderi

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Beide sind identisch - in dem Polyglot-Image sind lediglich alle Tesseractsprachen enthalten (wenn man z.B. Polnisch oder Türkisch erkennen lassen möchte).

Du kannst mir das PDF gern mal hochladen (auch gern mit log). Den Link findest du in meiner Signatur. Ich tippe auf ein signiertes oder teilverschlüsseltes Quell-PDF.
 

commanderi

Benutzer
Mitglied seit
25. Mrz 2011
Beiträge
205
Punkte für Reaktionen
4
Punkte
18
habe Dir beide Dokumente hochgeladen, danke für den Support. Ich habe noch ein Problem mit meiner Gehaltsabrechnung, dort steht eine Personalnummer drin, diese steht auch im Logfile. Wenn ich jedoch in Drive danach suche findet er nichts, mache ich beim suchen was falsch?
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Deine Rechnung ist schon von Haus aus mit schrägem Text. Auch aus dem Original kann ich nur kryptische Zeichen kopieren. Wird der Standardschalter -s (d.h. skip text) genutzt, wird dieser (kryptische) Text nicht angefasst. Ersetzt man aber -s durch -f (d.h. force), erzwingt man damit die erneute Texterkennung. Somit konnte ich dein PDF auch wieder durchsuchen.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat