Paperless-ngx Paperless-ngx – DMS via Docker auf dem NAS

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
Hat Scanner Pro vielleicht schonmal OCR gemacht? Die Standardeinstellung ist meines Wissens nach, dass er bereits erkannten Text beibehält.

Gleiche Frage bei der Website, ist da in der PDF schon Text drin, bevor du das in Paperless-ngx ein gelesen hast?
 

SprMa

Benutzer
Mitglied seit
21. Jun 2020
Beiträge
20
Punkte für Reaktionen
0
Punkte
1
:unsure: offenbar. Ich hab im Scanner Pro OCR ausgeschaltet und bekomme dieses Ergebnis:

IMG_0148.jpeg

Erstaunt mich doch etwas, da der gleiche „Fehler“ bei beiden Dokumenten auftritt…
 

SprMa

Benutzer
Mitglied seit
21. Jun 2020
Beiträge
20
Punkte für Reaktionen
0
Punkte
1
Weiterer Test mit einem Ausdruck über „PDF24“ und „Microsoft Print to PDF“ hat ebenso eine vollständige und richtige Erkennung des Textes ergeben.
Man fragt sich, was Scanner Pro da so „erkannt“ hat…

Sinnvollerweise überlässt man dann das OCR dem Paperless und schaltet es im verwendeten Scanner (Hardware oder Handy) aus, oder?
 

plang.pl

Benutzer
Contributor
Sehr erfahren
Mitglied seit
28. Okt 2020
Beiträge
15.028
Punkte für Reaktionen
5.401
Punkte
564
I.d.R. schon. Wobei ich eigentlich dachte, dass eine App auf dem Handy das besser kann. Trifft aber wohl nicht immer zu.
Bei mir macht das OCR immer die DS. Entweder mit paperless oder mit synOCR (ist ja die gleiche Engine)
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
Same here. Wobei ich die App auch benutze und tatsächlich bisher nicht solche merkwürdigen Ergebnisse mit ihr hatte. Benutze sie aber auch relativ selten.

Sinnvollerweise überlässt man dann das OCR dem Paperless und schaltet es im verwendeten Scanner (Hardware oder Handy) aus, oder?
Du kannst auch Paperless-ngx auffordern, OCR zu wiederholen. Schaltfläche ist über dem Dokument.
 

SprMa

Benutzer
Mitglied seit
21. Jun 2020
Beiträge
20
Punkte für Reaktionen
0
Punkte
1
Hab das „Statista“-PDF nochmal im Acrobat Reader geöffnet und dort als PDF ausgedruckt (über den PDF24), jetzt wird der Text sauber erkannt. Scheint tatsächlich die OCR der verwendeten iOS-Geräte zu sein…
Witzigerweise bleibt Paperless jetzt nach „Datei hochgeladen, warten…“ hängen – obwohl das Dokument schon erkannt und eingepflegt wurde. Ein Reload der Seite „behebt“ den Anzeigefehler.

Offenbar werden Paperless und ich keine guten Freunde :confused:
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
Zeigt das Protokoll etwas an? Und was passiert, wenn du die Seite neulädst? Bei mir passiert es hin und wieder, dass sich dieser Balken nicht bewegt, wenn ich dann aber die Seite neu geladen habe, ist das Dokument schon längst hinzugefügt worden.
 

SprMa

Benutzer
Mitglied seit
21. Jun 2020
Beiträge
20
Punkte für Reaktionen
0
Punkte
1
Der Balken ist offenbar ein i(Pad)OS-Problem. Unter macOS funktioniert es so wie es soll.

Herzlichen erst mal für die Tipps!
 

SprMa

Benutzer
Mitglied seit
21. Jun 2020
Beiträge
20
Punkte für Reaktionen
0
Punkte
1
Hab jetzt noch ein bisschen rumprobiert.

Wenn ich die Environment-Variable PAPERLESS_OCR_MODE=redo setze, dann
  1. wird es auch gemacht – im Protokoll steht:
    Calling OCRmyPDF with args: {'input_file': PosixPath('/tmp/paperless/paperless-ngx9quf4gcf/Scan 10.07.2023, 18.04.pdf'), 'output_file': PosixPath('/tmp/paperless/paperless-wi6w_yqe/archive.pdf'), 'use_threads': True, 'jobs': 8, 'language': 'deu+eng', 'output_type': 'pdfa', 'progress_bar': False, 'redo_ocr': True, 'clean': True, 'rotate_pages': True, 'rotate_pages_threshold': 12.0, 'sidecar': PosixPath('/tmp/paperless/paperless-wi6w_yqe/sidecar.txt')}
  2. das Dokument in Paperless aufzunehmen dauert deutlich länger (was ein Hinweis ist, dass er tatsächlich das OCR neu macht
  3. und hat dann
    • bei Scans von "Scanner Pro", die ohne OCR erstellt wurden, ein richtiges Ergebnis
      Gruss aus der Küche Berry Bros. / Cutty Sark
    • bei Scans von "Scanner Pro", die mit OCR erstellt wurden, immer noch die Fehler
      Gruss aus der K≣che Berry Bros. / Cutty Sark
Hm. Erfolg für das redo also Null.
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
Da kann ich nichts zu sagen, das mache ich nicht und nutze, wie gesagt auch die App nur sehr selten.
 

Almaran

Benutzer
Mitglied seit
13. Jun 2015
Beiträge
67
Punkte für Reaktionen
5
Punkte
8
Guten Abend, habt ihr eine Idee, warum bei manchen PDFs in paperless ngx nur kryptischen Zeichen angezeigt werden? Der ausgelesene Text (unter "Inhalt") ist korrekt, aber die Anzeige in der "Details"-Ansicht sind Rechtecke und seltsame Blöcke. Die eingestellte Sprache unter LANG ist deu, die Version ist die 1.16.5.

Update: Gleich ein Update, kaum hab ich hier gepostet, habe ich den folgenden BUG report gefunden: Text is shown as garbled characters, es gibt zwar soweit ich das sehe kein Lösung, aber einen Workaround, da das Problem wohl primär deutschsprachige PDFs betrifft. Unter Einstellungen, Dokumenteneditor: Benutze PDF-Betrachter des Web Browsers -auswählen/ anhaken-

anzeige.JPGeinst.JPG
 
Zuletzt bearbeitet:

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
Hatte ich bisher noch nicht, von daher danke für den Tip mit dem Betrachter!
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
Dank einer Anpassung an der Software des Forums kann ich den Eingangsbeitrag dieses Themas zukünftig bearbeiten. Ich habe das heute bereits einmal genutzt, um ein paar wichtige Aspekte, die sich in den letzten Monaten hier ergeben haben, dort aufzuführen. Ich werde das in den nächsten Tagen durch weitere Links ergänzen.

Wenn ihr noch Fragen oder Wünsche oder zum Beispiel weiterführende Links habt, dann gerne eine Nachricht an mich und ich stelle das ganze dann im ersten Beitrag ein.
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224

Paperless auf Raspberry Pi 1/2/Zero​

Dürfte nur die wenigsten betreffen, aber es ist davon auszugehen, dass Paperless-ngx auf absehbare Zeit auf Raspberry Pi der Baureihen 1/2/Zero nicht mehr funktionieren wird. Grund dafür ist laut stumpylog (einer der Maintainer von Paperless-ngx auf GitHub), dass die Unterstützung der Python-Bibliothek für 32-Bit-ARM ziemlich minimal ist und den Docker-Image-Erstellungsprozess ordentlich erschwert. Bei einer entsprechenden Umfrage auf GitHub haben aktuell 90 % Nutzer abgestimmt, dass sie auf diese Bibliothek verzichten könnten.

Sollte jemand also Paperless-ngx auf einem der genannten Pis laufen lassen, sollte er sich schonmal nach einer Alternative umsehen.
 

Biernot78

Benutzer
Mitglied seit
26. Okt 2018
Beiträge
50
Punkte für Reaktionen
3
Punkte
8
Hallo,
ich habe bei mir paperless-ngx nun am laufen. Ich habe es über die Anleitung von Marius gemacht. Soweit so gut. Aber ich komme nur auf die Seite wenn ich meine Firewall deaktiviere. In den Firewall Einstellungen der Firewall habe ich aber die Ports 9000 und 8777 freigeben. Jedoch sobald ich die Firewall wieder aktiviere komme ich nciht mehr auf Paperless. Warum ??
 

plang.pl

Benutzer
Contributor
Sehr erfahren
Mitglied seit
28. Okt 2020
Beiträge
15.028
Punkte für Reaktionen
5.401
Punkte
564
Du musst das Docker-Netz freigeben:
2.png
 
  • Like
Reaktionen: Biernot78

Biernot78

Benutzer
Mitglied seit
26. Okt 2018
Beiträge
50
Punkte für Reaktionen
3
Punkte
8
Danke
 

plang.pl

Benutzer
Contributor
Sehr erfahren
Mitglied seit
28. Okt 2020
Beiträge
15.028
Punkte für Reaktionen
5.401
Punkte
564
Kein Problem.
Coolen Profilnamen hast du dir da ausgesucht :cool:
 

Biernot78

Benutzer
Mitglied seit
26. Okt 2018
Beiträge
50
Punkte für Reaktionen
3
Punkte
8
Kann ich hier auch einen vorhanden Ordner der bereits an meinem Drucker freigeben ist einbinden aus dem paperless dann die Dokumente importiert?
Oder muss ich den ordner conum unbedingt für paperless freigeben?
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat