werde noch ein paar Tests machen und dann berichten.
Wenn ich das richtig sehe, dann hat die DS418play doch eine 64Bit Intel CPU. Dann sollte man auch Docker installieren können (möglicherweise nur manuell, wenn es im Paketzentrum nicht angeboten werden sollte).Bevor ich meine alte DS 418play verkauft habe, habe ich das SPK von synOCR drauf installiert. PDFs konnte ich an dieser Stelle nicht testen, da auf diesem Modell Docker nicht installiert werden kann.
Im Docker kann unter Images auch eine Datei ausgewählt werden. Um an die Docker repositorys zu kommen muss ich erst einige Freigaben in der Firewall machen. Und da ich die eigentlich nicht brauche (also generellen Zugriff), stellt sich mir die Frage nach einer Image-Datei, wenn sie doch auszuwählen geht.Was meinst du mit lokale Datei? Du musst nur einmal via Docker-GUI das Image herunterladen
Das erklärt alles. Dann kann Docker die auch nicht auf der Commandline holen.Um an die Docker repositorys zu kommen muss ich erst einige Freigaben in der Firewall machen. Und da ich die eigentlich nicht brauche (also generellen Zugriff), stellt sich mir die Frage nach einer Image-Datei, wenn sie doch auszuwählen geht.
Wenn du ein Image manuell einspielst, musst du es auch in der GUI explizit auswählen. Dazu noch anmerkend: Die Fehlermeldung betrifft das Image von jbarlow83. In der GUI ist 'mein' Polyglot-Image ausgewählt. Möglicherweise hast du in unterschiedlichen Profilen verschiedene Images ausgewählt. Das bitte auch checken.Das kleinere Image kann auch eingespielt werden. Allerdings kommt es trotzdem zu gleichen Meldung im Log. Ergo muss ich mich wohl mit den Firewall freigaben befassen. :/
Log-Ausschnitte teile ich gerne auf Anfrage, steht ja doch einiges Privates drin.2022-06-25 15:24:42,513 - Date scanning ended
find_dates.py result:
None
ERROR at line 984: date "+%d/%m/%Y" -d $(awk -F- '{print $2}' <<<"$founddatestr" )/$(awk -F- '{print $3}' <<<"$founddatestr" )/$(awk -F- '{print $1}' <<<"$founddatestr" ) > /dev/null 2>&1
! ! ! failed ...
fallback to RegEx search
run RegEx date search - search for date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
run RegEx date search - search for date format: 2 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
run RegEx date search - search for date format: 3 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
Date not found in OCR text - use file date:
day: 20
month:04
year: 2022
Genau, als Datum steht im Text "20. Dezember 2021". Das wird auch gefunden, wenn ich das Log korrekt interpretiere, allerdings kommt es danach zum Fehler.Gehe ich recht in der Annahme, dass der 20.12.2021 hätte gefunden werden sollen?
@Gthorsten hatte letztens noch etwas im Pythonskript für die Datumsuche gefixt. Das hatte ich aber noch nicht veröffentlicht. Kannst du das mal bitte checken (LINK)?
CITES_1:
tagname: Cites
tagname_RegEx: "[[:digit:]]{6}-[[:digit:]]{2,}"
targetfolder:
condition: any
subrules:
- searchstring: EUROPEAN UNION
searchtyp: contains
isRegEx: false
source: content
casesensitive: false
- searchstring: "[[:digit:]]{6}-[[:digit:]]{2,}"
searchtyp: contains
isRegEx: true
source: content
casesensitive: false
LV_1:
tagname: Lebensversicherung
tagname_RegEx: ""
targetfolder:
condition: any
subrules:
- searchstring: Versicherungsnummer
searchtyp: contains
isRegEx: false
source: content
casesensitive: true
- searchstring: "LV-1111-7777-3333"
searchtyp: contains
isRegEx: false
source: content
casesensitive: false
CITES_1:
tagname: Cites
tagname_RegEx: "[[:digit:]]{6}-[[:digit:]]{2,}"
targetfolder: Cites
condition: all
subrules:
- searchstring: EUROPEAN UNION
searchtyp: is
isRegEx: false
source: content
casesensitive: false
- searchstring: "[[:digit:]]{6}-[[:digit:]]{2,}"
searchtyp: contains
isRegEx: true
source: content
casesensitive: false
LV_1:
tagname: Lebensversicherung
tagname_RegEx: ""
targetfolder:
condition: all
subrules:
- searchstring: Versicherungsnummer
searchtyp: is
isRegEx: false
source: content
casesensitive: true
- searchstring: "LV-1111-2222-3333"
searchtyp: is
isRegEx: false
source: content
casesensitive: true
-----------------------------------
| ==> installation info <== |
-----------------------------------
synOCR-user: synOCR
synOCR-user is admin: yes
synOCR-version: 1.2.0
Architecture: x86_64
DSM-build: 42661
Device: 918plus (3974443861)
current Profil: Cites Bescheinigungen
DB-version: 5
WARNING: Error loading config file: .dockercfg: $HOME is not defined
used image (created): jbarlow83/ocrmypdf:latest (2022-06-24T08:19:52)
used ocr-parameter (raw): -srd -l deu --clean-final -O2
ocropt_array: -srd -l deu --clean-final -O2
search prefix:
replace search prefix: yes
renaming syntax: Cites DE-DEG§tag
Symbol for tag marking:
Document split pattern:
Date search method: use standard search via RegEx
source for filedate: ocr
ignored dates by search:
Docker test: WARNING: Error loading config file: .dockercfg: $HOME is not defined
OK
DSM notify to user: admin
Loglevel: normal
max. count of logfiles: 10
Source directory: /volume1/Scanner/Eingabe/
Target directory: /volume1/Scanner/Ausgabe/Cites/
Files are deleted immediately! / No valid directory [/]
rotate backupfiles after: (purge backup deactivated)
----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------
PROCESSING: ➜ IMG_LV.pdf (Sun Jun 26 09:03:59 CEST 2022)
temp. target file: /tmp/tmp.LXwGU9Z8Ws/IMG_LV.pdf
➜ OCRmyPDF-LOG:
WARNING: Error loading config file: .dockercfg: $HOME is not defined
reading file from standard input
Start processing 4 pages concurrently
2 with existing rotation ⇩, page is facing ⇧, confidence 12.69 - no change
3 page is facing ⇧, confidence 13.63 - no change
4 with existing rotation ⇩, page is facing ⇧, confidence 11.08 - no change
1 page is facing ⇧, confidence 12.82 - no change
Postprocessing...
Optimize ratio: 1.23 savings: 18.6%
Output sent to stdout
← OCRmyPDF-LOG-END
target file (OK): /tmp/tmp.LXwGU9Z8Ws/IMG_LV.pdf
➜ search tags and date:
source for tags is yaml based tag rule file [/volume1/Scanner/Eingabe/profiles/cites.txt]
validate the integrity of yaml-file:
search by tag rule: "CITES_1" ➜
➜ condition: all
➜ tag: Cites
➜ destination:
➜ RegEx for tag: [[:digit:]]{6}-[[:digit:]]{2,}
>>> Rule is not satisfied
rename tag is: ""
Using date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
Dates found: 4
check date (dd mm [yy]yy): 23.06.2022
➜ valid
day: 23
month:06
year: 2022
➜ renaming:
apply renaming syntax ➜ Cites DE-DEG
➜ edit metadata FAILED! - exiftool not found! Please install it over cphub.net if you need it
target file: Cites DE-DEG.pdf
➜ Adapt file date (Source: OCR)
➜ delete source file
INFO: (PushBullet-TOKEN not set)
Stats:
➜ runtime last file: 00:00:54
➜ pagecount last file: 4
➜ file count profile : (profile Cites Bescheinigungen) - 31 PDF's / 55 Pages processed up to now
➜ file count total: 50 PDF's / 155 Pages processed up to now
➜ delete tmp-files …
PROCESSING: ➜ IMG_CITES.pdf (Sun Jun 26 09:04:53 CEST 2022)
temp. target file: /tmp/tmp.Hs2ZxV37qy/IMG_CITES.pdf
➜ OCRmyPDF-LOG:
WARNING: Error loading config file: .dockercfg: $HOME is not defined
reading file from standard input
1 page is facing ⇧, confidence 6.56 - no change
1 [tesseract] lots of diacritics - possibly poor OCR
Postprocessing...
Optimize ratio: 1.03 savings: 2.9%
Output sent to stdout
← OCRmyPDF-LOG-END
target file (OK): /tmp/tmp.Hs2ZxV37qy/IMG_CITES.pdf
➜ search tags and date:
source for tags is yaml based tag rule file [/volume1/Scanner/Eingabe/profiles/cites.txt]
validate the integrity of yaml-file:
search by tag rule: "CITES_1" ➜
➜ condition: all
➜ tag: Cites
➜ destination:
➜ RegEx for tag: [[:digit:]]{6}-[[:digit:]]{2,}
>>> Rule is satisfied
➜ search RegEx for tag ➜ 220420-80
rename tag is: "220420-80"
Using date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
Dates found: 2
check date (dd mm [yy]yy): 01.08.2021
➜ valid
day: 01
month:08
year: 2021
➜ renaming:
apply renaming syntax ➜ Cites DE-DEG220420-80
➜ edit metadata FAILED! - exiftool not found! Please install it over cphub.net if you need it
target file: Cites DE-DEG220420-80.pdf
➜ Adapt file date (Source: OCR)
➜ delete source file
INFO: (PushBullet-TOKEN not set)
Stats:
➜ runtime last file: 00:01:06
➜ pagecount last file: 1
➜ file count profile : (profile Cites Bescheinigungen) - 32 PDF's / 56 Pages processed up to now
➜ file count total: 51 PDF's / 156 Pages processed up to now
➜ delete tmp-files …
➜ purge logfiles:
➜ purge backup deactivated
-----------------------------------
| ==> synOCR ENDE <== |
-----------------------------------
current Profil: Cites Bescheinigungen
Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.
Als Dankeschön schalten wir deinen Account werbefrei.