Paperless-ngx DMS - Fragen zu paperless-ng

Adama · 01. Apr. 2022

EDvonSchleck schrieb:
haben aber nicht mehr den original Namen und sind somit nicht mehr "unangetastet"

Was scheren mich die Originalnamen, solange der Inhalt unangetastet bleibt. Manche Dateien haben Namen, die sich keine Sau merken kann, die man nicht zuordnen kann. Namen sind Schall und Rauch...

EDvonSchleck schrieb:
wie gesagt interessant aber mit schwächen in der Umsetzung. kein Multiuser, kein Mariadb usw.

Ich nutze Postgres, welche bei Geschwindigkeit eher die Wahl vor Mariadb ist.

Kein Multiuser? Und warum hab' ich dann mehr als einen Benutzer?

Nebenbei, EcoDMS nutzt z.b. auch PostgresSQL, also so schlecht kann das ja nicht sein...

Tuxnet · 01. Apr. 2022

PostgresSQL ist schneller als mariaDB, das habe ich auch bei der Umstellung von nextcloud gemerkt.

Hier mal einer von unzähligen Vergleichen
https://sqlpipe.com/postgresql-mariadb-performance/

Man kann problemlos unzählige Nutzer bei Paperless-ngx anlegen.

EDvonSchleck · 01. Apr. 2022

Adama schrieb:
Ich nutze Postgres, welche bei Geschwindigkeit eher die Wahl vor Mariadb ist.

Adama schrieb:
Nebenbei, EcoDMS nutzt z.b. auch PostgresSQL, also so schlecht kann das ja nicht sein...

Ich finde das verwalten der Datenbank mit pgadmin nicht so prall. Das funktioniert bei mir nicht wirklich gut und nur mit einer alten Version. Welche Datenbank es letztendlich ist ist mir egal, nur muss man diese auch ordentlich sichern können. Für mich ist es wichtig das alles richtig funktioniert und nicht nur mal so durch Zufall.

Adama schrieb:
Kein Multiuser? Und warum hab' ich dann mehr als einen Benutzer?

Tuxnet schrieb:
Man kann problemlos unzählige Nutzer bei Paperless-ngx anlegen.

Nein kann Paperless nicht. Man kann zwar mehrere Nutzer anlegen welche unterschiedliche Rechte haben aber IMMER Zugriff auf alle Files von ALLEN Usern. Wurde schon mehrfach gefordert das zu ändern.

Adama schrieb:
Was scheren mich die Originalnamen, solange der Inhalt unangetastet bleibt. Manche Dateien haben Namen, die sich keine Sau merken kann, die man nicht zuordnen kann. Namen sind Schall und Rauch...

Das Mag für dich zutreffen, aber deine Aussage das die Files unangetastet sind stimmt einfach nicht und wenn kein Name (automatisch) vergeben wird mit einer zusätzlichen Einstellung (welche in den meisten Anleitungen fehlt) sind die Files einfach nur noch nummeriert. Das könnte Neueinsteiger doch schon ärgern. Auch ist das verwendete OCR nicht unbedingt das beste.

Es muss jeder für sich selbst entscheiden aber von ein "must have" ist es noch entfernt

Wenn Ihr Tips geben könnt über die Dockereinstellungen von pgadmin und er Verwaltung schaue ich mir das noch einmal an. Datenbanken & User anlegen geht, diese verwenden auch, das wars denn aber auch schon.

Adama · 01. Apr. 2022

Zum OCR:
https://paperless-ngx.readthedocs.io/en/latest/configuration.html#ocr-settings
Paperless nutzt OCRmyPDF

Zu den Dateinamen:
https://paperless-ngx.readthedocs.io/en/latest/advanced_usage.html#advanced-file-name-handling

Als ein "must have" sehe ich es bestimmt nicht, aber für den privaten Rahmen reicht es allemal. Da war mir EcoDMS z.B. irgendwie zu kompliziert...

Wegen der rein privaten Nutzung ist mir das mit den Rechten tatsächlich noch nicht aufgefallen, da ich letzlich doch nur immer denselben User nutze, zugegeben...

Adama · 01. Apr. 2022

Tuxnet schrieb:
PostgresSQL ist schneller als mariaDB, das habe ich auch bei der Umstellung von nextcloud gemerkt.

Macht sich das tatsächlich so deutlich bemerkbar? Ich nutze mein Nextcloud quasi alleine und hatte deswegen noch nicht das Gefühl, das es langsam wäre...

MrNeon · 04. Apr. 2022

Adama schrieb:
Zum OCR:
https://paperless-ngx.readthedocs.io/en/latest/configuration.html#ocr-settings
Paperless nutzt OCRmyPDF

Hmmm, das ist interessant und wusste ich nicht ... ich frage mich nur warum OCRmyPDF in Verbidnung mit SynOCR soviel bessere Ergebnisse liefert als Paperless. Ich habe PDFs da generiert Paperless irgendwelche Striche und Punkte draus... mag daran liegfen, das schon Textmarker vorhanden sind und Paperless das nochmal durch die Texterkennung jagt. Wo kann ich denn das mit OCR bei Paperless, welches in Docker läuft configurieren? Und wie mache ich das ?

Adama · 04. Apr. 2022

Hmm, die möglichen Einstellungen findest Du ja in dem Abschnitt...

Ich kann mich - wie schon gesagt - über die Ergebnisse nicht beschweren, egal, ob das schon vorhandene PDFs oder eingescannte Dokumente sind...

Die einzigen Werte, die ich vorgeben hab', sind:
PAPERLESS_OCR_IMAGE_DPI = 300
PAPERLESS_OCR_LANGUAGE = deu

Alles andere ist Standard.

MrNeon · 04. Apr. 2022

Adama schrieb:
Die einzigen Werte, die ich vorgeben hab', sind:
PAPERLESS_OCR_IMAGE_DPI = 300
PAPERLESS_OCR_LANGUAGE = deu

... und wo trägt man das ein ?

Adama · 04. Apr. 2022

Sorry, ich dachte, das wäre klar...
Das trägst du in den Umgebungsvariablen des Containers ein, also z.B. die Variable "PAPERLESS_OCR_IMAGE_DPI" und als Inhalt dann "300"

Ich hab' grad noch mal in der Doku gelesen. Zum Teil verweisen sie auch auf die OCRmyPDF-Doku. Und man kann wohl auch via JSON nicht durch Paperless vorgebene Einstellungen vornehmen.

MrNeon · 04. Apr. 2022

... hmmm ... das ist mir noch nicht so ganz klar wie und wo ich das nun mache ... da ich Probleme mit der OCR Erkennung bestimmter Dokumente habe würde ich die "Mode-Parameter" für PAPERLESS_OCR_MODE=<mode> alle mal durchprobieren ... da muss ich wohl mal ausprobieren, wo ich das eintrage .

Adama · 04. Apr. 2022

Was meinst Du mit "wo"?

Die Variablen weist Du dem eigentlichen Paperless-Container zu, nicht dem Broker...

MrNeon · 04. Apr. 2022

... perfekt ... probiere ich aus ! Dank Dir !

EDvonSchleck · 04. Apr. 2022

@Adama,

Ich habe gestern noch ein bisschen probiert. Postgres und Sqlite - bei beiden sehe ich keinen Unterschied in den Zeiten.
Größere Pdf mag Paperless irgenwie nicht - gleiches Ergebnis bei unterschiedlichen Datenbanken. Meine Test.pdf hatte dabei ein Größe von 2,5mb. Kleinere von 50-100kb braucht Paperless ca 5 Minuten. Die Auslastung der CPU schwankt bei mir zwischen 30-70% unter Docker bei Last, der RAM um 1gb.

Da du Postgres verwendest, wie erstellst du ein Backup der Datenbank? Pgadmin läuft bis Version 4.8 ohne Probleme jedoch das sichern in Docker nicht Pgadmin für Windows läuft dagegen ohne Problem auf der aktuellen Version. Könnte man das Backup erstellen automatisch machen lassen?

Ich bleibe zwar an den Thema dran aber richtig überzeugt bin ich noch nicht richtig.

Adama · 04. Apr. 2022

Hi Ed,

die beiden Datenbanken hab' ich nie verglichen, da ich von vornerein Postgres genommen hab'.

Ich hab' mal ein paar PDFs getestet:
ABB_Recovery_Media_Creation_Guide_ger.pdf
555 kB
21 Seiten
ca. 30s
CPU 30%

Artikel über Active Directory
849 kB
76 Seiten
ca. 150s
CPU zwischen 30-35%

Syno_AdministratorsGuide_ActiveBackup_Business_enu.pdf
2858 kB
53 Seiten
ca. 120s
CPU knapp 30%

Und das sind Dokumente, wie ich sie sonst gar nicht einlese. In erster Linie sind das Rechnungen, Bankunterlagen, Auftragsbestätigen und Vergleichbares.

Ich sichere alle Docker-Volumes von Paperless, also auch das Verzeichnis der Datenbank und exportiere die Container-Einstellungen automatisch über docker-autocompose.

EDvonSchleck · 04. Apr. 2022

danke @Adama, für die Info - ich werde die Files auch einmal testen und gebe noch einmal Bescheid.
Ich werde dazu auch noch einmal die CPU Anpassungen machen, weil sich deine Verarbeitungszeit zu meinen sehr stark unterscheiden - kann natürlich auch an meine alte DS liegen.
Kannst du mir sagen ob es möglich ist die Dokumente nachträglich mit einen Tag automatisch zu versehen?
Bis jetzt habe ich nichts gefunden. Also wenn man einen neuen Tag erstellt die Dokumente wie bei der Suche noch einmal zu scannen?
Die Datenbank verwaltest du soweit nicht bzw. nutzt Postgres nicht für weitere Docker? Hast du Pgadmin einmal als Docker probiert?

Adama · 04. Apr. 2022

Ist sicherlich auch eine Frage der Syno / CPU, was nutzt du für eine?

Ich hab sogar die Worker und Threads auf zwei begrenzt, damit andere Dienste nicht gestört werden...

Man kann die Dokumente neu taggen lassen, wenn mein Gedächtnis mich nicht täuscht. Ich müsste aber auch erst in die Doku schauen.
Edit: Da müsste es sein https://paperless-ngx.readthedocs.io/en/latest/administration.html#document-retagger

Für alles andere (Nextcloud, Firefox Sync) nutze ich die die interne MariaDB, insofern hab' ich noch nicht mal von Pgadmin gehört...

EDvonSchleck · 04. Apr. 2022

aktuell noch eine 1513+ die aber als Backup dienen soll. Leider hab ich Immer noch nicht einen passenden Ersatz gefunden, dachte der ryzen1500 bekommt einen Nachfolger. Jetzt wirft Qnap den 1500 wieder ins Spiel - wird also mit Synology nicht anders werden. Bin da noch bisschen gespalten... notfalls warte ich noch ein bisschen.

Intern wird aber von Synology Sqlite verwendet, Mariadb musst du zusätzlich installieren. Für die Datenbank wird bei Dockerhub Postgress ja auch Adminer angegeben, damit kann man zwar schnell neue Datenbanken anlegen aber immer nur unter den Hauptuser. Bei Pagadmin kann man schon weitere User mit Pw anlegen, Somit sind die unterschiedlichen Datenbanken und User die zugriff darauf haben getrennt.

Ich hab auch alle Docker von Hand installiert und eingerichtet, also nicht via Portainer. Damit habe ich mich richtig auseinander gesetzt mit Docker, was ich allerding lange aufgeschoben hatte. Somit ist nicht alles C&P kopiert ohne den Hintergrund zu verstehen.

Adama · 04. Apr. 2022

Ok, da haben wir ja schon mal Dual Core gegen Quad Core, das macht sicherlich schon einen deutlichen Unterschied... Atom vs. Celeron, da wird's sicherlich auch die eine oder andere Differenz geben...

Mit intern meinte ich auch die Syno-eigene Implementierung der MariaDB, nicht die interne DB. Etwas mißverständlich ausgedrückt...

EDvonSchleck · 05. Apr. 2022

Hallo Adama,

ABB_Recovery_Media_Creation_Guide_ger.pdf
1,66 MB
29 Seiten
237s

Syno_AdministratorsGuide_ActiveBackup_Business_enu.pdf
3,18 MB
67 Seiten
158s

Syno_AdministratorsGuide_ActiveBackup_Business_enu.pdf
1,32 MB
27 Seiten
110s

Werte sind 2x getestet. Leider unterscheiden sich die Files von deinen in der Größe und Seitenzahl. Deshalb habe ich sie noch einmal hier angehangen zum testen.

Soweit läuft es ja auch mit der alten CPU. Eventuell magst du die gleichen Files ja noch einmal testen um das Ergebnis zu vergleichen.

Adama · 05. Apr. 2022

Kann sein, dass ich ältere Versionen davon habe...

Hatte ich noch auf dem Rechner liegen. Ich teste das noch mal mit diesen hier...

Paperless-ngx DMS - Fragen zu paperless-ng

Benutzer

Benutzer

Gesperrt

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Gesperrt

Benutzer

Gesperrt

Benutzer

Gesperrt

Benutzer

Gesperrt

Anhänge

Benutzer

Additional post fields

Kaffeautomat