Paperless-ngx Paperless-ngx – DMS via Docker auf dem NAS

Okay, aber es werden dann doch bestimmt Duplikate erstellt? Ich möchte den Speicherort belassen nur die Datei in Paperless angezeigt bekommen.
 
Das ganze funktioniert so, dass irgendwo das Dokument zusammen mit dem erkannten Text abgespeichert wird und gleichzeitig ein Eintrag in der Datenbank gemacht wird, der dann alle anderen Einstellungen enthält, beispielsweise vergebene Tags etc.; deswegen müssen die Dokumente wie Alex richtig geschrieben hat auch erst einmal integriert werden.
 
Um genau zu sein, das Original wird nicht angefasst und landet in einem Unterverzeichnis "originals".

Während des Einlesevorganges wird ein durchsuchbares PDF erzeugt und unter "archive" abgelegt". Die Metadaten dazu landen in der Datenbank.
 
Leider wird von der original Datei immer 2 Kopien erstellt. Sowohl in Originals als auch in Archive. Das wollte ich eben nicht, ich möchte, dass ich die Original Datei (Pfad Dokumente) einfach in Paperless angezeigt bekomme.
 
Aber dann geht ja die Suche nicht. Paperless muss die Datei durchsuchbar machen. Du kannst höchstens danach die Originale löschen.
 
@coldjack Dafür gibt es einen Parameter in der Konfiguration:

PAPERLESS_OCR_SKIP_ARCHIVE_FILE=<mode>

Specify when you would like paperless to skip creating an archived version of your documents. This is useful if you don't want to have two almost-identical versions of your documents in the media folder.
  • never: Never skip creating an archived version.
  • with_text: Skip creating an archived version for documents that already have embedded text.
  • always: Always skip creating an archived version.
The default is never.
 
Du kannst es auch im Stack direkt unter environment eintragen. Oder wenn du es ein .env File nutzt bzw. eh eine stack.env einbindest, dann da.
 
Hallo.

Ich kann ja nun über https auf meine Paperless NGX Installation zugreifen. Im Moment überlege ich aber das wieder zu entfernen um nur noch einen lokalen Zugriff zu ermöglichen. Leider kann ich Paperless nicht einfach auf 2FA umstellen.

Meine Daten aber ohne 2FA länger im Netz zu lassen ist aber sicher auch nicht die Lösung.

Wie seht ihr das?

Gruß,
Dog6574
 
Um auf paperless via https zuzugreifen muss die Installation nicht im Internet hängen.
Da das aber eine Sache ist, die mit paperless erstmal wenig zu tun hat (sondern viel mehr mit der Thematik Netzwerk), wäre das wohl in einem eigenen Thread besser aufgehoben.
 
Ja das stimmt wohl...ich breche das vorerst ab und gehe über meinen Wireguard Tunnel auf mein Paperless von ausserhalb
 
Mache ich auch so, funktioniert super und derzeit sehe ich keinen Grund, das zu ändern und die Daten direkt ins Netz zu stellen.
 
Hallo und guten Abend
ich habe seit einiger zeit das Problem das neue pdf nicht eingelesen werden

"FileNotFoundError: [Errno 2] No such file or directory: '/usr/src/paperless/data/index/MAIN_g39h8jmt7gy63a6k.seg'

[2023-11-04 16:56:54,767] [ERROR] [paperless.consumer] The following error occurred while consuming Xerox Scan_04112023110905_20231104110905.PDF: This writer is closed "

es ist egal ob es über direct Eingabe in paperless oder aus dem Consumer Ordner geschieht


mein System ist
DiskStation Manager 7.2.-64570
Paperless-ngx 1.17.3 auch mit der 1.17.4 schon versucht gleiche Problem
redis:6.2
postgres:14
Installiert unter Docker/Portainer

Stack(docker-compose)

version: "3.6"
services:
broker:
image: redis:6.2
restart: always
volumes:
- /volume1/docker/paperedis:/data

db:
image: postgres:14
restart: always
volumes:
- /volume1/docker/paperdb:/var/lib/postgresql/data
environment:
POSTGRES_DB: paperless
POSTGRES_USER: paperless
POSTGRES_PASSWORD: paperless

webserver:
image: ghcr.io/paperless-ngx/paperless-ngx:1.17.3
container_name: paperlessngx
restart: always
depends_on:
- db
- broker
ports:
- 8777:8000
volumes:
- /volume1/docker/paperlessngx/data:/usr/src/paperless/data
- /volume1/docker/paperlessngx/media:/usr/src/paperless/media
- /volume1/docker/paperlessngx/export:/usr/src/paperless/export
- /volume1/Scanner:/usr/src/paperless/consume

environment:
PAPERLESS_REDIS: redis://broker:6379
PAPERLESS_DBHOST: db
USERMAP_UID: 1026
USERMAP_GID: 100
PAPERLESS_TIME_ZONE: Europe/Berlin
PAPERLESS_ADMIN_USER: admin
PAPERLESS_ADMIN_PASSWORD: xxxxx
PAPERLESS_OCR_LANGUAGE: deu+eng
PAPERLESS_FILENAME_FORMAT: '{created_year}/{correspondent}/{title}'
 
Um genau zu sein, das Original wird nicht angefasst und landet in einem Unterverzeichnis "originals".

Während des Einlesevorganges wird ein durchsuchbares PDF erzeugt und unter "archive" abgelegt". Die Metadaten dazu landen in der Datenbank.
Verständnisfragen eines Newbies:
- wird beim Import für jede Dateiart ein durchsuchbares PDF erzeugt (z.B. auch für docx oder jpgs) oder nur für PDFs, die eingesannt wurden?
- lässt das System beim Import eingescannte, aber schon durchsuchbare PDFs unverändert, oder wird ein zweites Mal OCR durchgeführt und im Archiv gespeichert? Falls ja, sind dann beide OCR Texte in der Archivdatei oder nur der zweite?
- Sind in der durchsuchbaren Datei auch noch die tags vorhanden, die ggf. in der Originaldatei vorhanden waren?
- Behält die Originaldatei den Dateinamen, den sie vor dem Import hatte oder bekommt sie den Neuen, den auch die arcivierte Datei bekommt?
 
Zuletzt bearbeitet:
  1. Ja.
  2. Kommt drauf an. Gespeichert wird vermutlich nur eine Version des erkannten Textes.
  3. welche Tags der Originaldatei? Tags werden erst mit der Verarbeitung oder danach vergeben.
  4. Bei mir haben Dateien unter /archive und /originals die gleichen, angepassten Namen.
 
Vielen Dank für die schnelle und gute Antwort. :)

zu 1. Unter dem Link aus Deiner 2. Antwort finde ich auch

PAPERLESS_OCR_SKIP_ARCHIVE_FILE=<mode> always: Always skip creating an archived version​

In diesem Fall würde wohl keine archivierte Version erzeugt. Aber dann wäre der Inhalt wahrscheinlich über die Suche nicht mehr erreichbar. Oder speichert das DMS den gescannten Text auch noch in der Datenbank? (letzteres wäre wahrscheinlich auch aus Perfomancegründen für die Volltext-Suche sehr sinnvoll)

zu 2. "skip" ist der Default (=will perform ocr only onpages where no text is present) => dann müsst die archivierte Datei von einem docx oder txt Dokument leer sein. Ist das so? kannst Du vielleicht bitte bei Dir mal kurz nachschauen?

zu 3. Originaldateien können tags haben. "Markierungen" meine ich: siehe angehängtes Bild1 . Diese werden z.B. von anderen einfachen OCR- (z.B. synOCR), Gesichtserkennungs- oder DMS Systemen gesetzt - oder von schmerzbefreiten Usern manuell.

zu 4. Schade, aber is halt so :cry:
 
Zuletzt bearbeitet von einem Moderator:
  1. Ich frage mich, warum ich den Text eines Dokumentes zweimal hinterlegt haben sollte; gerade bei anderen OCR-Bearbeitungen, die auf OCRmyPDF beruhen (wie z. B. synOCR) sind bei gleichem Dokument keine Änderungen zu erwarten.
  2. Kann ich tatsächlich nicht, weil ich kein Tika/Gotenberg installiert habe und ausschließlich mit pdfs arbeite.
  3. Die Tags von Paperless haben aber nichts mit Tags des PDF-Formats zu tun. Paperless-ngx-Tags sind einfach eine weitere Spalte in der Datenbank, die Datei-Tags werden ja als Attribut gespeichert (nehme ich mal an, leider kein Bild zu sehen)
 

Paperless-ngx v2.0​

Ein größeres Update steht ins Haus! Wer hin und wieder mal auf GitHub geschaut hat, hat vielleicht gesehen, dass derzeit an der Version 2 von Paperless-ngx gearbeitet wird (Stand jetzt, „94 % complete“). Das Layout wird sich nach den aktuellen Screenshots nicht groß verändern, unter der Haube wird es natürlich diverse Aktualisierungen geben.

IMG_0214.png

Größte Neuerung, die ich aktuell gefunden habe, ist die Möglichkeit, eigene Datenfelder festlegen zu können (hier als Fancy Number) bezeichnet. Ein Datum zur Veröffentlichung gibt es noch nicht, aber mit einem Release bis Anfang Dezember können wir – wenn es nicht noch „Show Stopper“ gibt, wahrscheinlich rechnen. Schönes Wochenende!
 
  • Like
Reaktionen: Tuxnet
Ist nicht weiter wild. Die Verzeichnisse sind ja schon mal korrekt gemappt, weiß ich aus anderen Threads mit dir.
Immer noch kein Watchtower im Einsatz für automatische Updates??
 

Additional post fields

 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat