Vielseitiges PDF über Trennblätter auftrennen

Wiesel6 · 31. Dez. 2022

Thlat schrieb:
1. 20 Seiten gleichzeitig (so viel bekommt mein Scanner hin) mit Trennblättern zwischen den Einzeldokumenten in den Scanner und scannen.
2. Scanner schiebt die Dokumente in einen Eingangsordner für die Trennung
3. 5 Minuten vor der vollen Stunde (wenn synOCR loslegt) wird die Trenn-App gestartet und trennt alle PDFs die im Ordner liegen automatisch auf (also Trennblätter löschen und an diesen Stellen die PDFs trennen
4. Ab hier weiter wie bisher in Step 3.

Wenn ich mich richtig erinnere unterstützt SynOCR in der aktuellen Version ein Trennblatt @geimist

geimist · 01. Jan. 2023

Das ist korrekt. Ab Version 1.3.0 werden Trennblätter unterstützt, wobei entschieden werden kann, ob ein Trennblatt den vorhergehenden Bereich oder dem nachfolgenden Bereich zugerechnet werden soll, oder ob es ganz verworfen werden soll.

EDvonSchleck · 01. Jan. 2023

Trennblätter sollen auch mit Paperlessngx funktionieren: https://docs.paperless-ngx.com/configuration/

PAPERLESS_CONSUMER_ENABLE_BARCODES=<bool>
Enables the scanning and page separation based on detected barcodes. This allows for scanning and adding multiple documents per uploaded file, which are separated by one or multiple barcode pages.

For ease of use, it is suggested to use a standardized separation page, e.g. here.

If no barcodes are detected in the uploaded file, no page separation will happen.

The original document will be removed and the separated pages will be saved as pdf.

PAPERLESS_CONSUMER_BARCODE_STRING=PATCHT
Defines the string to be detected as a separator barcode. If paperless is used with the PATCH-T separator pages, users shouldn't change this.

EDvonSchleck · 01. Jan. 2023

Ich habe die Seitentrennung jetzt einmal getestet und es funktioniert ohne Probleme.

Dazu habe ich unter den erweiterten Containereinstellungen die Environment Variable in der Synology-Docker-GUI bearbeitet und den folgenden Eintrag hinzugefügt: PAPERLESS_CONSUMER_ENABLE_BARCODES und auf "true" gesetzt.

Zum Testen habe ich das Synology Whitepaper genutzt und mehrere Trennseiten (Patch-T) aus dem Link #23 eingefügt. Weitere Trennseiten findet man im Internet. Das Testfile ist unten hinzugefügt.

Nach dem Hochladen des Dokumentes werden die Seiten erfolgreich getrennt, siehe:

Screenshot 2023-01-01 at 11-23-27 Startseite - Paperless-ngx.png

Screenshot 2023-01-01 at 11-18-05 Startseite - Paperless-ngx.png

Screenshot 2023-01-01 at 13-20-13 test - Paperless-ngx.png

Somit ist eine Seitentrennung auch mit Paperless-ngx problemlos möglich und einfach umzusetzen. Viel Spaß beim Testen.

w00dcu11er · 02. Jan. 2023

steje43 schrieb:
Noch, denn ich werde mir in Zukunft kein NAS mehr kaufen.

Ist sicher dein gutes Recht, aber den wirklichen Sinn und Zweck dieser Diskstation hast du wohl nicht ganz verstanden. Ist aber eh egal. Kannst ja auch weiterhin mit 4-5 externe HDDs hantieren.

Thlat · 02. Jan. 2023

@geimist Vielen Dank, das Update hatte ich überhaupt nicht mitbekommen. Damit wäre meine ursprüngliche Frage ja beantwortet

Wiesel6 · 02. Jan. 2023

@Thlat Aus diesem Grund hatte ich hier reingeschrieben und geimist verlinkt, dass er es bitte bestätig

oschmidt · 08. Feb. 2023

Wenn ich das richtig verstehe, dann muss ich zwei envs setzen?
PAPERLESS_CONSUMER_ENABLE_BARCODES=true & PAPERLESS_CONSUMER_BARCODE_STRING=PATCHT

Dann kann ich die letzte Seite aus dem folgenden Link als Separator Seite verwenden? Muss tatsächlich gleich einen ganzen Stapel alter Dokumente scannen und da wäre es ganz praktisch

Im Alltag brauch ich die Separation eig. nicht.

Monacum · 08. Feb. 2023

Nein, PATCHT ist bereits gesetzt als
default, setz die, wenn du ein anders Blatt als PATCHT setzt. Nur die erste env muss auf true gesetzt werden, die ist standardmäßig false.

albiderbaer · 17. Juni 2023

hallo,
wo gebe ich diese Variablen ein? paperless-db oder paperless-broker oder paperless-webserver? Ih werde nicht richtig daraus schlau...
Danke für die Hilfe im voraus.
Thomas Albrecht

EDvonSchleck schrieb:
Dazu habe ich unter den erweiterten Containereinstellungen die Environment Variable in der Synology-Docker-GUI bearbeitet und den folgenden Eintrag hinzugefügt: PAPERLESS_CONSUMER_ENABLE_BARCODES und auf "true" gesetzt.

Monacum · 17. Juni 2023

Kommt grundsätzlich darauf an, wie du das installiert hast; wenn du die Konfiguration nur über den Container machst (ohne yml- und env-Datei), dann würde ich sagen beim Webserver. Aber bevor du da irgendwas machst, schreib kurz zurück, wie du die Installation gemacht hast, dann kann ich Dir gezielter helfen.

albiderbaer · 18. Juni 2023

Ich habe die Installation entsprechend "Digitalisierung mit Kopf" durchgeführt und habe auch env und yml Dateien (in /config) in denen man Anpassungen machen kann.

Monacum · 18. Juni 2023

Dann bitte in der .env folgende Zeile ergänzen:
PAPERLESS_CONSUMER_ENABLE_BARCODES=true

Danach Paperless über den Aufgabenplaner bzw. Terminal neustarten:

Code:

docker stop paperlessngx
cd /volume1/docker/paperlessngx/config/
docker-compose up -d

Den Pfad und den Namen des Containers im stop-Befehl bitte anpassen. Wenn du nach der Anleitung von Stefan Lachner (DmK) vorgehst, bitte die Variablen immer in der .yml oder .env vornehmen, keine Änderungen so wie oben am Container im Container-Manager/Docker vornehmen.

Hier findest du unter anderem die PATCH-T-Datei, wenn du sie noch nicht hast. Standardmäßig funktioniert nur die (siehe oben), das ist die Standardeinstellung, wenn du die Variable ergänzt hast.

albiderbaer · 18. Juni 2023

Danke vorab!

Und wo speichere ich die Patch-T Datei ab oder brauche ich nur etwas abspeichern, wenn ich eine andere Datei nehmen möchte?

Monacum · 18. Juni 2023

Ob du die speicherst, musst du dir selber überlegen. In der Praxis ist es ja so, dass du dir einen Stapel unterschiedlicher Dokumente nimmst und dann zwischen die einzelnen Dokumente jeweils eine dieser PATCH T Seiten legst.

Der Scanner erstellt dann eine große PDF Datei, aber Paperless kann im Hintergrund die PATCH T erkennen und erstellt dann innerhalb des Programms mehrere PDF, beispielsweise eine mit dem Schreiben der Versicherung, eine mit dem Schreiben des Finanzamts und so weiter.

Ich habe zu Hause neben dem Scanner fünf Seiten ausgedruckt liegen, das reicht bei mir in der Realität dicke aus, um auch mal einen größeren Stapel einzuscannen. Zu groß würde ich die einzelne PDF aus dem Scanner heraus auch nicht werden lassen, dass wir dann im Zweifelsfalle nur zu einer deutlich längeren Verarbeitungszeit.

Oder anders gesagt: wenn du einmal ein paar Ausdrucke dieser Datei gemacht hast, brauchst du eigentlich die Datei selbst nicht mehr, wenn du die Papiere nicht verschlampst oder sie kaputt gehen.

albiderbaer · 18. Juni 2023

gut erklärt, danke
Ich habe auf Arbeit einen großen guten Scanner Develop ineo 250i, der super scannt. da kann ich die Blätter super daneben legen.
In welcher Auflösung sollte man sinnvollerweise scannen? 100 bis 600 dpi macht der Scanner und als DS habe ich eine 920+ ?
In der höchsten Auflösung (600 dpi) habe ich festgestellt, dass er doch öfter Probleme hat und irgendwie hängen bleibt. Wenn man dann nicht gleich den Posteingang aufräumt bleibt er stecken...

Wenn man allerdings mit zu geringer Auflösung einspannt, dann habe ich die Befürchtung, dass die OCR nicht so gut erkennt.

Gibt es da eine Grundregel?

Monacum · 18. Juni 2023

Ich nutze 300 dpi, das reicht mir aus und die Ergebnisse des OCR-Vorgangs sind für mich auch gut.

geimist · 18. Juni 2023

Ich habe auch die besten Ergebnisse mit 300 DPI erzielt. Zudem scanne ich in Schwarzweiß (1 Bit Farbtiefe), was die Dateigröße klein hält und für Textdokumente auch der Darstellung zu gute kommt.

albiderbaer · 18. Juni 2023

Okay ich meistens auch
Kann man eigentlich einen asn Barcode selbst erzeugen und auf dem einzuscannenden Dokument als Stempel hinzufügen?

Monacum · 18. Juni 2023

Danach habe ich auch schon mal geschaut, das geht aber soweit ich weiß nicht.

Vielseitiges PDF über Trennblätter auftrennen

Benutzer

Benutzer

Gesperrt

Gesperrt

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Kaffeautomat