Paperless-ngx Paperless-ngx – DMS via Docker auf dem NAS

coldjack

Benutzer
Mitglied seit
09. Apr 2016
Beiträge
145
Punkte für Reaktionen
5
Punkte
18
Okay, aber es werden dann doch bestimmt Duplikate erstellt? Ich möchte den Speicherort belassen nur die Datei in Paperless angezeigt bekommen.
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
Das ganze funktioniert so, dass irgendwo das Dokument zusammen mit dem erkannten Text abgespeichert wird und gleichzeitig ein Eintrag in der Datenbank gemacht wird, der dann alle anderen Einstellungen enthält, beispielsweise vergebene Tags etc.; deswegen müssen die Dokumente wie Alex richtig geschrieben hat auch erst einmal integriert werden.
 

Adama

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
05. Mrz 2013
Beiträge
2.148
Punkte für Reaktionen
736
Punkte
154
Um genau zu sein, das Original wird nicht angefasst und landet in einem Unterverzeichnis "originals".

Während des Einlesevorganges wird ein durchsuchbares PDF erzeugt und unter "archive" abgelegt". Die Metadaten dazu landen in der Datenbank.
 

coldjack

Benutzer
Mitglied seit
09. Apr 2016
Beiträge
145
Punkte für Reaktionen
5
Punkte
18
Leider wird von der original Datei immer 2 Kopien erstellt. Sowohl in Originals als auch in Archive. Das wollte ich eben nicht, ich möchte, dass ich die Original Datei (Pfad Dokumente) einfach in Paperless angezeigt bekomme.
 

plang.pl

Benutzer
Contributor
Sehr erfahren
Mitglied seit
28. Okt 2020
Beiträge
15.028
Punkte für Reaktionen
5.401
Punkte
564
Aber dann geht ja die Suche nicht. Paperless muss die Datei durchsuchbar machen. Du kannst höchstens danach die Originale löschen.
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
@coldjack Dafür gibt es einen Parameter in der Konfiguration:

PAPERLESS_OCR_SKIP_ARCHIVE_FILE=<mode>

Specify when you would like paperless to skip creating an archived version of your documents. This is useful if you don't want to have two almost-identical versions of your documents in the media folder.
  • never: Never skip creating an archived version.
  • with_text: Skip creating an archived version for documents that already have embedded text.
  • always: Always skip creating an archived version.
The default is never.
 

alexhell

Benutzer
Sehr erfahren
Mitglied seit
13. Mai 2021
Beiträge
2.831
Punkte für Reaktionen
853
Punkte
154
Du kannst es auch im Stack direkt unter environment eintragen. Oder wenn du es ein .env File nutzt bzw. eh eine stack.env einbindest, dann da.
 

Dog6574

Benutzer
Mitglied seit
15. Sep 2014
Beiträge
181
Punkte für Reaktionen
1
Punkte
18
Hallo.

Ich kann ja nun über https auf meine Paperless NGX Installation zugreifen. Im Moment überlege ich aber das wieder zu entfernen um nur noch einen lokalen Zugriff zu ermöglichen. Leider kann ich Paperless nicht einfach auf 2FA umstellen.

Meine Daten aber ohne 2FA länger im Netz zu lassen ist aber sicher auch nicht die Lösung.

Wie seht ihr das?

Gruß,
Dog6574
 

plang.pl

Benutzer
Contributor
Sehr erfahren
Mitglied seit
28. Okt 2020
Beiträge
15.028
Punkte für Reaktionen
5.401
Punkte
564
Um auf paperless via https zuzugreifen muss die Installation nicht im Internet hängen.
Da das aber eine Sache ist, die mit paperless erstmal wenig zu tun hat (sondern viel mehr mit der Thematik Netzwerk), wäre das wohl in einem eigenen Thread besser aufgehoben.
 

Dog6574

Benutzer
Mitglied seit
15. Sep 2014
Beiträge
181
Punkte für Reaktionen
1
Punkte
18
Ja das stimmt wohl...ich breche das vorerst ab und gehe über meinen Wireguard Tunnel auf mein Paperless von ausserhalb
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
Mache ich auch so, funktioniert super und derzeit sehe ich keinen Grund, das zu ändern und die Daten direkt ins Netz zu stellen.
 

mike281176

Benutzer
Mitglied seit
03. Okt 2022
Beiträge
1
Punkte für Reaktionen
0
Punkte
1
Hallo und guten Abend
ich habe seit einiger zeit das Problem das neue pdf nicht eingelesen werden

"FileNotFoundError: [Errno 2] No such file or directory: '/usr/src/paperless/data/index/MAIN_g39h8jmt7gy63a6k.seg'

[2023-11-04 16:56:54,767] [ERROR] [paperless.consumer] The following error occurred while consuming Xerox Scan_04112023110905_20231104110905.PDF: This writer is closed "

es ist egal ob es über direct Eingabe in paperless oder aus dem Consumer Ordner geschieht


mein System ist
DiskStation Manager 7.2.-64570
Paperless-ngx 1.17.3 auch mit der 1.17.4 schon versucht gleiche Problem
redis:6.2
postgres:14
Installiert unter Docker/Portainer

Stack(docker-compose)

version: "3.6"
services:
broker:
image: redis:6.2
restart: always
volumes:
- /volume1/docker/paperedis:/data

db:
image: postgres:14
restart: always
volumes:
- /volume1/docker/paperdb:/var/lib/postgresql/data
environment:
POSTGRES_DB: paperless
POSTGRES_USER: paperless
POSTGRES_PASSWORD: paperless

webserver:
image: ghcr.io/paperless-ngx/paperless-ngx:1.17.3
container_name: paperlessngx
restart: always
depends_on:
- db
- broker
ports:
- 8777:8000
volumes:
- /volume1/docker/paperlessngx/data:/usr/src/paperless/data
- /volume1/docker/paperlessngx/media:/usr/src/paperless/media
- /volume1/docker/paperlessngx/export:/usr/src/paperless/export
- /volume1/Scanner:/usr/src/paperless/consume

environment:
PAPERLESS_REDIS: redis://broker:6379
PAPERLESS_DBHOST: db
USERMAP_UID: 1026
USERMAP_GID: 100
PAPERLESS_TIME_ZONE: Europe/Berlin
PAPERLESS_ADMIN_USER: admin
PAPERLESS_ADMIN_PASSWORD: xxxxx
PAPERLESS_OCR_LANGUAGE: deu+eng
PAPERLESS_FILENAME_FORMAT: '{created_year}/{correspondent}/{title}'
 

rhinopeak

Benutzer
Mitglied seit
16. Okt 2023
Beiträge
7
Punkte für Reaktionen
0
Punkte
1
Um genau zu sein, das Original wird nicht angefasst und landet in einem Unterverzeichnis "originals".

Während des Einlesevorganges wird ein durchsuchbares PDF erzeugt und unter "archive" abgelegt". Die Metadaten dazu landen in der Datenbank.
Verständnisfragen eines Newbies:
- wird beim Import für jede Dateiart ein durchsuchbares PDF erzeugt (z.B. auch für docx oder jpgs) oder nur für PDFs, die eingesannt wurden?
- lässt das System beim Import eingescannte, aber schon durchsuchbare PDFs unverändert, oder wird ein zweites Mal OCR durchgeführt und im Archiv gespeichert? Falls ja, sind dann beide OCR Texte in der Archivdatei oder nur der zweite?
- Sind in der durchsuchbaren Datei auch noch die tags vorhanden, die ggf. in der Originaldatei vorhanden waren?
- Behält die Originaldatei den Dateinamen, den sie vor dem Import hatte oder bekommt sie den Neuen, den auch die arcivierte Datei bekommt?
 
Zuletzt bearbeitet:

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
  1. Ja.
  2. Kommt drauf an. Gespeichert wird vermutlich nur eine Version des erkannten Textes.
  3. welche Tags der Originaldatei? Tags werden erst mit der Verarbeitung oder danach vergeben.
  4. Bei mir haben Dateien unter /archive und /originals die gleichen, angepassten Namen.
 

rhinopeak

Benutzer
Mitglied seit
16. Okt 2023
Beiträge
7
Punkte für Reaktionen
0
Punkte
1
Vielen Dank für die schnelle und gute Antwort. :)

zu 1. Unter dem Link aus Deiner 2. Antwort finde ich auch

PAPERLESS_OCR_SKIP_ARCHIVE_FILE=<mode> always: Always skip creating an archived version​

In diesem Fall würde wohl keine archivierte Version erzeugt. Aber dann wäre der Inhalt wahrscheinlich über die Suche nicht mehr erreichbar. Oder speichert das DMS den gescannten Text auch noch in der Datenbank? (letzteres wäre wahrscheinlich auch aus Perfomancegründen für die Volltext-Suche sehr sinnvoll)

zu 2. "skip" ist der Default (=will perform ocr only onpages where no text is present) => dann müsst die archivierte Datei von einem docx oder txt Dokument leer sein. Ist das so? kannst Du vielleicht bitte bei Dir mal kurz nachschauen?

zu 3. Originaldateien können tags haben. "Markierungen" meine ich: siehe angehängtes Bild1 . Diese werden z.B. von anderen einfachen OCR- (z.B. synOCR), Gesichtserkennungs- oder DMS Systemen gesetzt - oder von schmerzbefreiten Usern manuell.

zu 4. Schade, aber is halt so :cry:
 
Zuletzt bearbeitet von einem Moderator:

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
  1. Ich frage mich, warum ich den Text eines Dokumentes zweimal hinterlegt haben sollte; gerade bei anderen OCR-Bearbeitungen, die auf OCRmyPDF beruhen (wie z. B. synOCR) sind bei gleichem Dokument keine Änderungen zu erwarten.
  2. Kann ich tatsächlich nicht, weil ich kein Tika/Gotenberg installiert habe und ausschließlich mit pdfs arbeite.
  3. Die Tags von Paperless haben aber nichts mit Tags des PDF-Formats zu tun. Paperless-ngx-Tags sind einfach eine weitere Spalte in der Datenbank, die Datei-Tags werden ja als Attribut gespeichert (nehme ich mal an, leider kein Bild zu sehen)
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224

Paperless-ngx v2.0​

Ein größeres Update steht ins Haus! Wer hin und wieder mal auf GitHub geschaut hat, hat vielleicht gesehen, dass derzeit an der Version 2 von Paperless-ngx gearbeitet wird (Stand jetzt, „94 % complete“). Das Layout wird sich nach den aktuellen Screenshots nicht groß verändern, unter der Haube wird es natürlich diverse Aktualisierungen geben.

IMG_0214.png

Größte Neuerung, die ich aktuell gefunden habe, ist die Möglichkeit, eigene Datenfelder festlegen zu können (hier als Fancy Number) bezeichnet. Ein Datum zur Veröffentlichung gibt es noch nicht, aber mit einem Release bis Anfang Dezember können wir – wenn es nicht noch „Show Stopper“ gibt, wahrscheinlich rechnen. Schönes Wochenende!
 
  • Like
Reaktionen: Tuxnet

plang.pl

Benutzer
Contributor
Sehr erfahren
Mitglied seit
28. Okt 2020
Beiträge
15.028
Punkte für Reaktionen
5.401
Punkte
564
Ist nicht weiter wild. Die Verzeichnisse sind ja schon mal korrekt gemappt, weiß ich aus anderen Threads mit dir.
Immer noch kein Watchtower im Einsatz für automatische Updates??
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat