Paperless-ngx Paperless-ngx – DMS via Docker auf dem NAS

coldjack · 28. Okt. 2023

Okay, aber es werden dann doch bestimmt Duplikate erstellt? Ich möchte den Speicherort belassen nur die Datei in Paperless angezeigt bekommen.

Monacum · 28. Okt. 2023

Das ganze funktioniert so, dass irgendwo das Dokument zusammen mit dem erkannten Text abgespeichert wird und gleichzeitig ein Eintrag in der Datenbank gemacht wird, der dann alle anderen Einstellungen enthält, beispielsweise vergebene Tags etc.; deswegen müssen die Dokumente wie Alex richtig geschrieben hat auch erst einmal integriert werden.

Adama · 28. Okt. 2023

Um genau zu sein, das Original wird nicht angefasst und landet in einem Unterverzeichnis "originals".

Während des Einlesevorganges wird ein durchsuchbares PDF erzeugt und unter "archive" abgelegt". Die Metadaten dazu landen in der Datenbank.

coldjack · 29. Okt. 2023

Leider wird von der original Datei immer 2 Kopien erstellt. Sowohl in Originals als auch in Archive. Das wollte ich eben nicht, ich möchte, dass ich die Original Datei (Pfad Dokumente) einfach in Paperless angezeigt bekomme.

plang.pl · 29. Okt. 2023

Aber dann geht ja die Suche nicht. Paperless muss die Datei durchsuchbar machen. Du kannst höchstens danach die Originale löschen.

Monacum · 29. Okt. 2023

@coldjack Dafür gibt es einen Parameter in der Konfiguration:

PAPERLESS_OCR_SKIP_ARCHIVE_FILE=<mode>
Specify when you would like paperless to skip creating an archived version of your documents. This is useful if you don't want to have two almost-identical versions of your documents in the media folder.

never: Never skip creating an archived version.

with_text: Skip creating an archived version for documents that already have embedded text.

always: Always skip creating an archived version.

The default is never.

coldjack · 31. Okt. 2023

Monacum schrieb:
@coldjack Dafür gibt es einen Parameter in der Konfiguration:

Ist es richtig, dass ich die Konfiguration paperless_ocr_skip_archive_file=mode bei portainer "env" eintrage? Eine eigene .conf habe ich bei Docker nicht.

alexhell · 31. Okt. 2023

Du kannst es auch im Stack direkt unter environment eintragen. Oder wenn du es ein .env File nutzt bzw. eh eine stack.env einbindest, dann da.

Dog6574 · 02. Nov. 2023

Hallo.

Ich kann ja nun über https auf meine Paperless NGX Installation zugreifen. Im Moment überlege ich aber das wieder zu entfernen um nur noch einen lokalen Zugriff zu ermöglichen. Leider kann ich Paperless nicht einfach auf 2FA umstellen.

Meine Daten aber ohne 2FA länger im Netz zu lassen ist aber sicher auch nicht die Lösung.

Wie seht ihr das?

Gruß,
Dog6574

plang.pl · 02. Nov. 2023

Um auf paperless via https zuzugreifen muss die Installation nicht im Internet hängen.
Da das aber eine Sache ist, die mit paperless erstmal wenig zu tun hat (sondern viel mehr mit der Thematik Netzwerk), wäre das wohl in einem eigenen Thread besser aufgehoben.

Dog6574 · 02. Nov. 2023

Ja das stimmt wohl...ich breche das vorerst ab und gehe über meinen Wireguard Tunnel auf mein Paperless von ausserhalb

Monacum · 02. Nov. 2023

Mache ich auch so, funktioniert super und derzeit sehe ich keinen Grund, das zu ändern und die Daten direkt ins Netz zu stellen.

mike281176 · 04. Nov. 2023

Hallo und guten Abend
ich habe seit einiger zeit das Problem das neue pdf nicht eingelesen werden

"FileNotFoundError: [Errno 2] No such file or directory: '/usr/src/paperless/data/index/MAIN_g39h8jmt7gy63a6k.seg'

[2023-11-04 16:56:54,767] [ERROR] [paperless.consumer] The following error occurred while consuming Xerox Scan_04112023110905_20231104110905.PDF: This writer is closed "

es ist egal ob es über direct Eingabe in paperless oder aus dem Consumer Ordner geschieht

mein System ist
DiskStation Manager 7.2.-64570
Paperless-ngx 1.17.3 auch mit der 1.17.4 schon versucht gleiche Problem
redis:6.2
postgres:14
Installiert unter Docker/Portainer

Stack(docker-compose)

version: "3.6"
services:
broker:
image: redis:6.2
restart: always
volumes:
- /volume1/docker/paperedis:/data

db:
image: postgres:14
restart: always
volumes:
- /volume1/docker/paperdb:/var/lib/postgresql/data
environment:
POSTGRES_DB: paperless
POSTGRES_USER: paperless
POSTGRES_PASSWORD: paperless

webserver:
image: ghcr.io/paperless-ngx/paperless-ngx:1.17.3
container_name: paperlessngx
restart: always
depends_on:
- db
- broker
ports:
- 8777:8000
volumes:
- /volume1/docker/paperlessngx/data:/usr/src/paperless/data
- /volume1/docker/paperlessngx/media:/usr/src/paperless/media
- /volume1/docker/paperlessngx/export:/usr/src/paperless/export
- /volume1/Scanner:/usr/src/paperless/consume

environment:
PAPERLESS_REDIS: redis://broker:6379
PAPERLESS_DBHOST: db
USERMAP_UID: 1026
USERMAP_GID: 100
PAPERLESS_TIME_ZONE: Europe/Berlin
PAPERLESS_ADMIN_USER: admin
PAPERLESS_ADMIN_PASSWORD: xxxxx
PAPERLESS_OCR_LANGUAGE: deu+eng
PAPERLESS_FILENAME_FORMAT: '{created_year}/{correspondent}/{title}'

rhinopeak · 10. Nov. 2023

Adama schrieb:
Um genau zu sein, das Original wird nicht angefasst und landet in einem Unterverzeichnis "originals".

Während des Einlesevorganges wird ein durchsuchbares PDF erzeugt und unter "archive" abgelegt". Die Metadaten dazu landen in der Datenbank.

Verständnisfragen eines Newbies:
- wird beim Import für jede Dateiart ein durchsuchbares PDF erzeugt (z.B. auch für docx oder jpgs) oder nur für PDFs, die eingesannt wurden?
- lässt das System beim Import eingescannte, aber schon durchsuchbare PDFs unverändert, oder wird ein zweites Mal OCR durchgeführt und im Archiv gespeichert? Falls ja, sind dann beide OCR Texte in der Archivdatei oder nur der zweite?
- Sind in der durchsuchbaren Datei auch noch die tags vorhanden, die ggf. in der Originaldatei vorhanden waren?
- Behält die Originaldatei den Dateinamen, den sie vor dem Import hatte oder bekommt sie den Neuen, den auch die arcivierte Datei bekommt?

Monacum · 10. Nov. 2023

Ja.
Kommt drauf an. Gespeichert wird vermutlich nur eine Version des erkannten Textes.
welche Tags der Originaldatei? Tags werden erst mit der Verarbeitung oder danach vergeben.
Bei mir haben Dateien unter /archive und /originals die gleichen, angepassten Namen.

rhinopeak · 10. Nov. 2023

Vielen Dank für die schnelle und gute Antwort.

zu 1. Unter dem Link aus Deiner 2. Antwort finde ich auch

PAPERLESS_OCR_SKIP_ARCHIVE_FILE=<mode> always: Always skip creating an archived version

In diesem Fall würde wohl keine archivierte Version erzeugt. Aber dann wäre der Inhalt wahrscheinlich über die Suche nicht mehr erreichbar. Oder speichert das DMS den gescannten Text auch noch in der Datenbank? (letzteres wäre wahrscheinlich auch aus Perfomancegründen für die Volltext-Suche sehr sinnvoll)

zu 2. "skip" ist der Default (=will perform ocr only onpages where no text is present) => dann müsst die archivierte Datei von einem docx oder txt Dokument leer sein. Ist das so? kannst Du vielleicht bitte bei Dir mal kurz nachschauen?

zu 3. Originaldateien können tags haben. "Markierungen" meine ich: siehe angehängtes Bild1 . Diese werden z.B. von anderen einfachen OCR- (z.B. synOCR), Gesichtserkennungs- oder DMS Systemen gesetzt - oder von schmerzbefreiten Usern manuell.

zu 4. Schade, aber is halt so

Monacum · 10. Nov. 2023

Ich frage mich, warum ich den Text eines Dokumentes zweimal hinterlegt haben sollte; gerade bei anderen OCR-Bearbeitungen, die auf OCRmyPDF beruhen (wie z. B. synOCR) sind bei gleichem Dokument keine Änderungen zu erwarten.
Kann ich tatsächlich nicht, weil ich kein Tika/Gotenberg installiert habe und ausschließlich mit pdfs arbeite.
Die Tags von Paperless haben aber nichts mit Tags des PDF-Formats zu tun. Paperless-ngx-Tags sind einfach eine weitere Spalte in der Datenbank, die Datei-Tags werden ja als Attribut gespeichert (nehme ich mal an, leider kein Bild zu sehen)

Monacum · 10. Nov. 2023

Paperless-ngx v2.0

Ein größeres Update steht ins Haus! Wer hin und wieder mal auf GitHub geschaut hat, hat vielleicht gesehen, dass derzeit an der Version 2 von Paperless-ngx gearbeitet wird (Stand jetzt, „94 % complete“). Das Layout wird sich nach den aktuellen Screenshots nicht groß verändern, unter der Haube wird es natürlich diverse Aktualisierungen geben.

Größte Neuerung, die ich aktuell gefunden habe, ist die Möglichkeit, eigene Datenfelder festlegen zu können (hier als Fancy Number) bezeichnet. Ein Datum zur Veröffentlichung gibt es noch nicht, aber mit einem Release bis Anfang Dezember können wir – wenn es nicht noch „Show Stopper“ gibt, wahrscheinlich rechnen. Schönes Wochenende!

Dog6574 · 10. Nov. 2023

Hoffentlich helft ihr mir beim installieren

plang.pl · 10. Nov. 2023

Ist nicht weiter wild. Die Verzeichnisse sind ja schon mal korrekt gemappt, weiß ich aus anderen Threads mit dir.
Immer noch kein Watchtower im Einsatz für automatische Updates??

Paperless-ngx Paperless-ngx – DMS via Docker auf dem NAS

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

PAPERLESS_OCR_SKIP_ARCHIVE_FILE=<mode>​

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

PAPERLESS_OCR_SKIP_ARCHIVE_FILE=<mode> always: Always skip creating an archived version​

Benutzer

Benutzer

Paperless-ngx v2.0​

Benutzer

Benutzer

Additional post fields

Kaffeautomat

PAPERLESS_OCR_SKIP_ARCHIVE_FILE=<mode>

PAPERLESS_OCR_SKIP_ARCHIVE_FILE=<mode> always: Always skip creating an archived version

Paperless-ngx v2.0