Paperless-ngx Paperless NGX - Import Office Dokumente

Die Commands waren bei Gotenberg 7.4 etwas anders. Du hast anscheinend die aktuellen drin. Aktualisiere dein Gotenberg einmal auf latest. Die Version 7.6 funktioniert nicht. Mit der aktuellen Version ist das aber kein Problem mehr. Nachdem du Änderungen an Gotenberg getätigt hast, starte auch Paperless einmal neu!
 
  • Like
Reaktionen: starmagoo
Das war es! Eine andere Version hätte ich auch mal selber probieren können. Es lag in der Tat an der Gotenberg Version. Habe mich hier durch Version 7.4 verrückt machen lassen und nicht mal eine andere Probiert. Danke @EDvonSchleck !

Ein Extra Netzwerk wird wie schon von mir festgestellt, nicht benötigt. Man muss die Ports noch nich mal nach außen (aus dem Container raus) öffnen.

Anbei meine YAML-Config:

version: "3.4" services: broker: image: docker.io/library/redis:7 restart: unless-stopped volumes: - /volume3/docker/paperless/redisdata:/data webserver: image: ghcr.io/paperless-ngx/paperless-ngx:latest restart: unless-stopped depends_on: - broker ports: - 8777:8000 healthcheck: test: ["CMD", "curl", "-fs", "-S", "--max-time", "2", "http://localhost:8000"] interval: 30s timeout: 10s retries: 5 volumes: - /volume3/docker/paperless/data:/usr/src/paperless/data - /volume3/docker/paperless/media:/usr/src/paperless/media - /volume3/docker/paperless/export:/usr/src/paperless/export - /volume2/DMS/paperless-upload:/usr/src/paperless/consume environment: PAPERLESS_REDIS: redis://broker:6379 USERMAP_UID: 1026 USERMAP_GID: 100 PAPERLESS_FILENAME_FORMAT: '{created_year}/{correspondent}/{created}-{added}_{title}' PAPERLESS_TIKA_ENABLED: 1 PAPERLESS_TIKA_GOTENBERG_ENDPOINT: http://gotenberg:3000/forms/libreoffice/convert# PAPERLESS_TIKA_ENDPOINT: http://tika:9998 tika: image: ghcr.io/paperless-ngx/tika container_name: prod_aw_tika-01 restart: unless-stopped gotenberg: image: gotenberg/gotenberg command: - "gotenberg" - "--chromium-disable-routes=true" container_name: prod_aw_gotenberg-01 restart: unless-stopped
 
Der einzige „Fehler“, den ich immer noch sehe, ist, dass du den Healthcheck noch auf Port 8777 ändern könntest.
 
Moin, wenn es ein Fehler wäre, würde der Healtcheck ja nicht funktionieren. Oder? ;)
Mit dem hier angegebenen Command wird nicht der Port auf dem Docker-Host geprüft (exposed), sondern der Port im Container.
 
Bin mir mittlerweile unsicher. Ich bekomme aber mit einem Healthcheck auf die externe Portnummer auch keinen Fehler.
 
Ja, wenn die Ports identisch sind bzw. der Command auf die externe Seite zeigt, dann passt das bei dir sicher. Da du mich auch kurz Verunsichert hast, habe ich es nachgestellt und bekomme Fehler, wenn ich mit meinem Command den externen Port prüfe.

2023-02-03_09h48_40.png

Grüße
 
Nee, tut er nicht, habe den wie du angepasst. Mir ist aber nie etwas aufgefallen, weil ich irgendwann weg bin von Marius‘ Anleitung und folglich auch keinen Blick mehr in Portainer geworfen habe. Ich werde das mal anpassen bei mir 😄
 
  • Like
Reaktionen: starmagoo
Der Healthcheck läuft ja intern im Container. Das ist ja ein Healthcheck von / für Docker und nicht für Paperless, um es so auszudrücken.
 
  • Like
Reaktionen: Monacum und starmagoo
@starmagoo könntest Du oder jemand anderes die yaml Datei hier bereitstellen? Beim Kopieren erhalte ich beim Einfügen in Portainer immer Fehlermeldungen.
 
Fertige *.yml findest du direkt auf Github. Die Versionen unterscheiden sich in der verwendeten Datenbank und mit oder ohne Office. Wenn du nur Paperless ausprobieren willst, reicht SQLite vollkommen aus. Was die Performance angeht, unterscheiden die Datenbanken sich nur minimal.

Die Volumen in db (Postegres) und webserver (Paperless) musst du natürlich auf deine Ordner anpassen. Also alles, was vor dem : steht. Auch würde ich Postgres auf 15 und Redis sowie Gotenberg auf latest setzen.
 
  • Like
Reaktionen: spooner und Thonav
Hallo @Thonav ,

gerne gebe ich dies als yaml-File weiter. Aber wie @EDvonSchleck schreibt, das ist hochindividuell. Die klappt nicht Copy-Paste!
Ich habe knapp 1000 Dokumente und fahre mit SQLite sehr gut.

Viel Erfolg, Grüße
 

Anhänge

  • Like
Reaktionen: spooner
Super - Danke Dir!
 
Hallo zusammen,

ich hänge auch gerade an dem Thema und drehe mich im Kreis 🤯

Grundlegendes Setup:
- Paperless-ngx mit Postgres läuft super
- nun will ich Tika und Gotenberg dazu installieren
- alles über docker-compose
- Container sind damit in einem eigenen Birgde Netzwerk
- Keine Ports aus der Bridge nach außen, außer den 8000 für Paperless
- alle Container sind untereinander über Ping erreichbar

Folgendes habe ich versucht für die Gotenberg Konfiguration:

image: gotenberg/gotenberg:7.8.0
=> 503 Server Error: Service Unavailable for url: http://gotenberg:3000/forms/libreoffice/convert#/forms/libreoffice/convert
Log im Gotenberg Container
=>"convert to PDF: lock long-running LibreOffice listener: start long-running LibreOffice listener: execute LibreOffice listener: context done: context deadline exceeded"


image: gotenberg/gotenberg:7.4.3
=> 400 Client Error: Bad Request for url: http://gotenberg:3000/forms/libreoffice/convert#/forms/libreoffice/convert
bzw.
=> 400 Client Error: Bad Request for url: http://gotenberg:3000/forms/libreoffice/convert
Log im Gotenberg Container
=> "convert PDF: convert PDF to 'PDF/A-2b' with multi PDF engines: convert PDF to 'PDF/A-2b' with PDFcpu: method not available; convert PDF to 'PDF/A-2b' with PDFtk: method not available; convert PDF to 'PDF/A-2b' with QPDF: method not available; convert PDF to 'PDF/A-2b' with unoconv: PDF format not available"

Also ich bin mit meinem Latein am Ende... Ideas welcome

Hier noch die (an manchen Stellen etwas eingekürzte) docker-compose.yml
YAML:
version: "3.8"
services:

  broker:
    container_name: paperless_redis
    image: redis:7.0.8
    restart: "no"
    volumes:
      - ./redisdata:/data

  db:
    container_name: paperless_postgres
    image: postgres:14.6
    restart: "no"
    volumes:
      - ./pgdata:/var/lib/postgresql/data
    environment:
      POSTGRES_DB: paperless
      POSTGRES_USER: paperless
      POSTGRES_PASSWORD: ...

  paperless:
    container_name: paperless
    image: ghcr.io/paperless-ngx/paperless-ngx:1.12.2
    restart: "no"
    depends_on:
      - db
      - broker
      - gotenberg
      - tika
    ports:
      - 8000:8000
    volumes:
      - ./data:/usr/src/paperless/data
      - ./media:/usr/src/paperless/media
        ...
    env_file: docker-compose.env
    environment:
      PAPERLESS_REDIS: redis://broker:6379
      PAPERLESS_DBHOST: db
      PAPERLESS_DBPASS: ...
      PAPERLESS_TIKA_ENABLED: 1
      PAPERLESS_TIKA_GOTENBERG_ENDPOINT: http://gotenberg:3000/forms/libreoffice/convert#
      PAPERLESS_TIKA_ENDPOINT: http://tika:9998

  gotenberg:
    container_name: paperless_gotenberg
    image: gotenberg/gotenberg:7.8.0 # höhere Versionen machen Probleme
    restart: "no"
    command:
      - "gotenberg"
      - "--chromium-disable-routes=true"

  tika:
    container_name: paperless_tika
    image: apache/tika:2.7.0.0
    restart: "no"
 
Richte dich nach der Anleitung von Paperless. Das betrifft die Gotenberg URL, Gotenberg commands und das Tika Image. Was du noch gekürzt hast, kann noch falsch sein. Gerade Gotenberg und Tika ist ja für Office notwendig.
 
Hallo,
ich hatte paperless-ngx eigentlich jetzt Monate problemlos am Laufen. Ich komme auch noch auf die Oberfläche und kann alles sortieren, anschauen und ändern.
Nur wenn ich neue Dokumente hochlade, dann läuft es bis 20% und dann steht "verarbeite" dran und es passiert nichts mehr. Nach 10-20 Minuten oder so verschwindet der Balken mit dem Hochladen/Prozentanzeige, die Datei ist nicht hochgeladen worden. Auch in der Admin Console oder im Log erscheint genau nichts. Wenn ich die Dateien manuell ins Consume Verzeichnis lege, liest er sie laut Log zwar mal ein, aber es wird nicht weiter verarbeitet (adding xyz.pdf to the task queue)
Jemand eine Idee? Alles aufgesetzt über Portainer. Ansonsten spuckt das Protokoll nur 1-2x die Minute das aus:
[2023-02-10 15:21:26,937] [DEBUG] [paperless.classifier] Gathering data from database...
[2023-02-10 15:21:31,107] [DEBUG] [paperless.tasks] Training data unchanged.

Bei den Einstellungen sind die Dokumente dann zwar in der Warteschlange... Wird aber nichts abgearbeitet... Es sind 2 einseitige PDFs, eine fast identische davon hat er vor 2 Wochen oder so noch problemlos gelesen...
 
Hast du ein Image von dem Stack upgedatet? Nutzt du Watchtower? DS neu gestartet? Paperless-Container zurückgesetzt/geleert?
Etwas muss sich ja aktuell geändert haben.
 
Ja ich nutze Watchtower und wie ich sehe wurden 2 Images aus dem Stack gestern geupdatet bzw. dem Datum nach "created": Redis und DB.
Gestartet habe ich zumindest alle Docker Images neu mehrmals, hat aber nichts gebracht...
 
Denn liegt es eventuell an der Datenbank (DB). Welche Version war vorher installiert? Nach welcher Installationsanleitung bist du gegangen? Wie ein Datenbankupdate gemacht wird, habe ich in den Paperlessngx Thread beschrieben. Wie lautet das Image von der Datenbank mit Tag?
 
Keine Ahnung welche Version davor installiert war, Installation wie bei Marius Hosting.
Tatsächlich hab ich jetzt mal die Synology neu gestartet und im Admin Panel eine Menge Tasks gelöscht, die heute gestartet wurden mit Pending... Jetzt hat er die beiden Dokumente gefressen und auch entsprechend automatisch getaggt... Soweit würde ich da erstmal nichts weiter anfassen :D
Dennoch Danke. Falls es nicht mehr gehen sollte habe ich ja immer noch das Backup meiner ganzen Synology wie auch die Option, das nochmal anders zu installieren... Portainer habe ich nur wegen Paperless drauf, Tika und Gotenberg brauche ich eigentlich gar nicht, bläht auch nur unnötig auf...
 
Du kannst alles mit Watchtower updaten, bis auf ein Upgrade bei der Datenbank. In der Anleitung von Marius ist diese aber nicht auf eine Version begrenzt! Das solltest du unbedingt andern! Welchen Tag hast du bei der Datenbank?latest? Wenn ja ändere diesen bitte auf:
postgres:15. Ansonsten wird das irgendwann schiefgehen.

Wenn du die Officefunktion nicht benötigst, kannst du auch den Stack ohne Tika und Gotenberg benutzen oder deinen Stack bearbeiten und neu deployen.

Dazu musst du nur folgendes entfernen:
Code:
      - gotenberg
      - tika
      PAPERLESS_TIKA_ENABLED: 1
      PAPERLESS_TIKA_GOTENBERG_ENDPOINT: http://gotenberg:3000/forms/libreoffice/convert#
      PAPERLESS_TIKA_ENDPOINT: http://tika:9998
 
  gotenberg:
    image: gotenberg/gotenberg
    restart: always
    container_name: PaperlessNGX-GOTENBERG
    ports:
      - 3000:3000
    command:
      - "gotenberg"
      - "--chromium-disable-routes=true"
 
  tika:
    image: ghcr.io/paperless-ngx/tika
    container_name: PaperlessNGX-TIKA
    ports:
      - 9998:9998
    restart: always
 

Additional post fields

 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat