Vielseitiges PDF über Trennblätter auftrennen

Wiesel6

Benutzer
Mitglied seit
22. Aug 2016
Beiträge
323
Punkte für Reaktionen
102
Punkte
43
1. 20 Seiten gleichzeitig (so viel bekommt mein Scanner hin) mit Trennblättern zwischen den Einzeldokumenten in den Scanner und scannen.
2. Scanner schiebt die Dokumente in einen Eingangsordner für die Trennung
3. 5 Minuten vor der vollen Stunde (wenn synOCR loslegt) wird die Trenn-App gestartet und trennt alle PDFs die im Ordner liegen automatisch auf (also Trennblätter löschen und an diesen Stellen die PDFs trennen
4. Ab hier weiter wie bisher in Step 3.
Wenn ich mich richtig erinnere unterstützt SynOCR in der aktuellen Version ein Trennblatt @geimist
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Das ist korrekt. Ab Version 1.3.0 werden Trennblätter unterstützt, wobei entschieden werden kann, ob ein Trennblatt den vorhergehenden Bereich oder dem nachfolgenden Bereich zugerechnet werden soll, oder ob es ganz verworfen werden soll.
 

EDvonSchleck

Gesperrt
Mitglied seit
06. Mrz 2018
Beiträge
4.703
Punkte für Reaktionen
1.120
Punkte
214
Trennblätter sollen auch mit Paperlessngx funktionieren: https://docs.paperless-ngx.com/configuration/
PAPERLESS_CONSUMER_ENABLE_BARCODES=<bool>
Enables the scanning and page separation based on detected barcodes. This allows for scanning and adding multiple documents per uploaded file, which are separated by one or multiple barcode pages.

For ease of use, it is suggested to use a standardized separation page, e.g. here.

If no barcodes are detected in the uploaded file, no page separation will happen.

The original document will be removed and the separated pages will be saved as pdf.
PAPERLESS_CONSUMER_BARCODE_STRING=PATCHT
Defines the string to be detected as a separator barcode. If paperless is used with the PATCH-T separator pages, users shouldn't change this.
 
Zuletzt bearbeitet:

EDvonSchleck

Gesperrt
Mitglied seit
06. Mrz 2018
Beiträge
4.703
Punkte für Reaktionen
1.120
Punkte
214
Ich habe die Seitentrennung jetzt einmal getestet und es funktioniert ohne Probleme.

Dazu habe ich unter den erweiterten Containereinstellungen die Environment Variable in der Synology-Docker-GUI bearbeitet und den folgenden Eintrag hinzugefügt: PAPERLESS_CONSUMER_ENABLE_BARCODES und auf "true" gesetzt.

Screenshot 2023-01-01 at 11-27-30 DiskStation - Synology DiskStation.png

Zum Testen habe ich das Synology Whitepaper genutzt und mehrere Trennseiten (Patch-T) aus dem Link #23 eingefügt. Weitere Trennseiten findet man im Internet. Das Testfile ist unten hinzugefügt.

Nach dem Hochladen des Dokumentes werden die Seiten erfolgreich getrennt, siehe:

Screenshot 2023-01-01 at 11-23-27 Startseite - Paperless-ngx.png

Screenshot 2023-01-01 at 11-18-05 Startseite - Paperless-ngx.png

Screenshot 2023-01-01 at 13-20-13 test - Paperless-ngx.png

Somit ist eine Seitentrennung auch mit Paperless-ngx problemlos möglich und einfach umzusetzen. Viel Spaß beim Testen. ;)
 

Anhänge

  • Synology_Security_Whitepaper_Trennseite.pdf
    847,5 KB · Aufrufe: 105
Zuletzt bearbeitet:

w00dcu11er

Benutzer
Sehr erfahren
Mitglied seit
16. Sep 2022
Beiträge
882
Punkte für Reaktionen
310
Punkte
89
Noch, denn ich werde mir in Zukunft kein NAS mehr kaufen.
Ist sicher dein gutes Recht, aber den wirklichen Sinn und Zweck dieser Diskstation hast du wohl nicht ganz verstanden. Ist aber eh egal. Kannst ja auch weiterhin mit 4-5 externe HDDs hantieren.
 

Thlat

Benutzer
Mitglied seit
11. Jul 2022
Beiträge
43
Punkte für Reaktionen
5
Punkte
8
@geimist Vielen Dank, das Update hatte ich überhaupt nicht mitbekommen. Damit wäre meine ursprüngliche Frage ja beantwortet :)
 
  • Like
Reaktionen: geimist

Wiesel6

Benutzer
Mitglied seit
22. Aug 2016
Beiträge
323
Punkte für Reaktionen
102
Punkte
43
@Thlat Aus diesem Grund hatte ich hier reingeschrieben und geimist verlinkt, dass er es bitte bestätig ;)
 

oschmidt

Benutzer
Mitglied seit
17. Sep 2020
Beiträge
92
Punkte für Reaktionen
31
Punkte
68
Wenn ich das richtig verstehe, dann muss ich zwei envs setzen?
PAPERLESS_CONSUMER_ENABLE_BARCODES=true & PAPERLESS_CONSUMER_BARCODE_STRING=PATCHT

Dann kann ich die letzte Seite aus dem folgenden Link als Separator Seite verwenden? Muss tatsächlich gleich einen ganzen Stapel alter Dokumente scannen und da wäre es ganz praktisch :) Im Alltag brauch ich die Separation eig. nicht.
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.214
Punkte für Reaktionen
1.034
Punkte
224
Nein, PATCHT ist bereits gesetzt als
default, setz die, wenn du ein anders Blatt als PATCHT setzt. Nur die erste env muss auf true gesetzt werden, die ist standardmäßig false.
 
  • Like
Reaktionen: oschmidt

albiderbaer

Benutzer
Mitglied seit
07. Mrz 2011
Beiträge
6
Punkte für Reaktionen
0
Punkte
1
hallo,
wo gebe ich diese Variablen ein? paperless-db oder paperless-broker oder paperless-webserver? Ih werde nicht richtig daraus schlau...
Danke für die Hilfe im voraus.
Thomas Albrecht

Dazu habe ich unter den erweiterten Containereinstellungen die Environment Variable in der Synology-Docker-GUI bearbeitet und den folgenden Eintrag hinzugefügt: PAPERLESS_CONSUMER_ENABLE_BARCODES und auf "true" gesetzt.

Screenshot 2023-01-01 at 11-27-30 DiskStation - Synology DiskStation.png
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.214
Punkte für Reaktionen
1.034
Punkte
224
Kommt grundsätzlich darauf an, wie du das installiert hast; wenn du die Konfiguration nur über den Container machst (ohne yml- und env-Datei), dann würde ich sagen beim Webserver. Aber bevor du da irgendwas machst, schreib kurz zurück, wie du die Installation gemacht hast, dann kann ich Dir gezielter helfen.
 

albiderbaer

Benutzer
Mitglied seit
07. Mrz 2011
Beiträge
6
Punkte für Reaktionen
0
Punkte
1
Ich habe die Installation entsprechend "Digitalisierung mit Kopf" durchgeführt und habe auch env und yml Dateien (in /config) in denen man Anpassungen machen kann.
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.214
Punkte für Reaktionen
1.034
Punkte
224
Dann bitte in der .env folgende Zeile ergänzen:
PAPERLESS_CONSUMER_ENABLE_BARCODES=true

Danach Paperless über den Aufgabenplaner bzw. Terminal neustarten:
Code:
docker stop paperlessngx
cd /volume1/docker/paperlessngx/config/
docker-compose up -d

Den Pfad und den Namen des Containers im stop-Befehl bitte anpassen. Wenn du nach der Anleitung von Stefan Lachner (DmK) vorgehst, bitte die Variablen immer in der .yml oder .env vornehmen, keine Änderungen so wie oben am Container im Container-Manager/Docker vornehmen.

Hier findest du unter anderem die PATCH-T-Datei, wenn du sie noch nicht hast. Standardmäßig funktioniert nur die (siehe oben), das ist die Standardeinstellung, wenn du die Variable ergänzt hast.
 
Zuletzt bearbeitet:

albiderbaer

Benutzer
Mitglied seit
07. Mrz 2011
Beiträge
6
Punkte für Reaktionen
0
Punkte
1
Danke vorab! ☺️ Und wo speichere ich die Patch-T Datei ab oder brauche ich nur etwas abspeichern, wenn ich eine andere Datei nehmen möchte?
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.214
Punkte für Reaktionen
1.034
Punkte
224
Ob du die speicherst, musst du dir selber überlegen. In der Praxis ist es ja so, dass du dir einen Stapel unterschiedlicher Dokumente nimmst und dann zwischen die einzelnen Dokumente jeweils eine dieser PATCH T Seiten legst.

Der Scanner erstellt dann eine große PDF Datei, aber Paperless kann im Hintergrund die PATCH T erkennen und erstellt dann innerhalb des Programms mehrere PDF, beispielsweise eine mit dem Schreiben der Versicherung, eine mit dem Schreiben des Finanzamts und so weiter.

Ich habe zu Hause neben dem Scanner fünf Seiten ausgedruckt liegen, das reicht bei mir in der Realität dicke aus, um auch mal einen größeren Stapel einzuscannen. Zu groß würde ich die einzelne PDF aus dem Scanner heraus auch nicht werden lassen, dass wir dann im Zweifelsfalle nur zu einer deutlich längeren Verarbeitungszeit.

Oder anders gesagt: wenn du einmal ein paar Ausdrucke dieser Datei gemacht hast, brauchst du eigentlich die Datei selbst nicht mehr, wenn du die Papiere nicht verschlampst oder sie kaputt gehen.
 

albiderbaer

Benutzer
Mitglied seit
07. Mrz 2011
Beiträge
6
Punkte für Reaktionen
0
Punkte
1
gut erklärt, danke
Ich habe auf Arbeit einen großen guten Scanner Develop ineo 250i, der super scannt. da kann ich die Blätter super daneben legen.
In welcher Auflösung sollte man sinnvollerweise scannen? 100 bis 600 dpi macht der Scanner und als DS habe ich eine 920+ ?
In der höchsten Auflösung (600 dpi) habe ich festgestellt, dass er doch öfter Probleme hat und irgendwie hängen bleibt. Wenn man dann nicht gleich den Posteingang aufräumt bleibt er stecken...

Wenn man allerdings mit zu geringer Auflösung einspannt, dann habe ich die Befürchtung, dass die OCR nicht so gut erkennt.

Gibt es da eine Grundregel?
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.214
Punkte für Reaktionen
1.034
Punkte
224
Ich nutze 300 dpi, das reicht mir aus und die Ergebnisse des OCR-Vorgangs sind für mich auch gut.
 
  • Like
Reaktionen: geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Ich habe auch die besten Ergebnisse mit 300 DPI erzielt. Zudem scanne ich in Schwarzweiß (1 Bit Farbtiefe), was die Dateigröße klein hält und für Textdokumente auch der Darstellung zu gute kommt.
 

albiderbaer

Benutzer
Mitglied seit
07. Mrz 2011
Beiträge
6
Punkte für Reaktionen
0
Punkte
1
Okay ich meistens auch
Kann man eigentlich einen asn Barcode selbst erzeugen und auf dem einzuscannenden Dokument als Stempel hinzufügen?
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.214
Punkte für Reaktionen
1.034
Punkte
224
Danach habe ich auch schon mal geschaut, das geht aber soweit ich weiß nicht.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat