- Mitglied seit
- 22. Jan 2017
- Beiträge
- 1
- Punkte für Reaktionen
- 0
- Punkte
- 0
Hallo liebes Forum,
seit kurzem bin ich stolzer Besitzer einer DS216+II und begeistert wie viel besser dieses NAS im Vergleich zum Netgear Vorgänger ist.
Jetzt habe ich Blut geleckt und möchte gerne meine ganze Zettelwirtschaft abschaffen und Archivierbare PDF (PDF/A) mit OCR Layer nutzen.
Ziel ist ein Workflow ohne Zusatzgerät und ohne Dokumenten Management System.
Ich scanne ein Dokument und lasse den Scan als PDF auf dem NAS ablegen.
Auf dem NAS läuft ein Batch-Job, der alle neuen Dokumente mit OCR-Layer ergänzt und als PDF/A abspeichert.
Ich besitze schon einen Scanner der mir die Bilder als PDF auf dem NAS ablegt.
Über docker kann ich mir das Image von OCRmyPDF (=Skript) ziehen, mit dem eine richtig gute Konversion von Bild-PDF auf PDF/A mithilfe von Googles tesseract erzeugt wird.
Github Link
Docker Container
Allerdings funktioniert das Skript nur indem man ihm direkt die Datei mitgibt.
Hier kommt GNU parallel ins Spiel, mit dem laut Dokumentation die Erstellung eines Batch-Jobs möglich ist.
Dokumentation Batch Jobs
Also:
1. Bisher im Ordner aufgelaufene Dateien erkennen.
2. Alle Dateien mit OCR-Layer versehen und Ergebnis als neue Datei in anderem Verzeichnis abspeichern.
[3. Umgang mit Originalen fehlt ]
Hier brauche ich eure Hilfe, denn ich habe leider keine große Erfahrung mit Linux-Systemen und Synology NAS im Besonderen.
Außerdem will ich keine Garantie verletzen.
In meiner naiven Welt kann das Synology NAS mit einer zeitgesteuerten Aufgabe im DSM per GNU parallel den docker Container mit OCRmyPDF starten.
Alle bis zu diesem Zeitpunkt gescannten Bild-PDFs im Verzeichnis A werden mit OCR-Layer versehen und als PDF/A in Verzeichnis B abgelegt.
Die Originale werden im Erfolgsfall nach Verzeichnis C verschoben.
Im Misserfolgsfall bleiben die Originale für einen neuen Versuch im Verzeichnis A.
Damit brauche ich zumindest Hilfe beim Einrichten der Aufgabe und Installation von GNU parallel.
Oder ihr habt eine andere Idee, wie ich den Batchjob deichseln kann.
Über eure Hilfe würde ich mich wirklich sehr freuen.
seit kurzem bin ich stolzer Besitzer einer DS216+II und begeistert wie viel besser dieses NAS im Vergleich zum Netgear Vorgänger ist.
Jetzt habe ich Blut geleckt und möchte gerne meine ganze Zettelwirtschaft abschaffen und Archivierbare PDF (PDF/A) mit OCR Layer nutzen.
Ziel ist ein Workflow ohne Zusatzgerät und ohne Dokumenten Management System.
Ich scanne ein Dokument und lasse den Scan als PDF auf dem NAS ablegen.
Auf dem NAS läuft ein Batch-Job, der alle neuen Dokumente mit OCR-Layer ergänzt und als PDF/A abspeichert.
Ich besitze schon einen Scanner der mir die Bilder als PDF auf dem NAS ablegt.
Über docker kann ich mir das Image von OCRmyPDF (=Skript) ziehen, mit dem eine richtig gute Konversion von Bild-PDF auf PDF/A mithilfe von Googles tesseract erzeugt wird.
Github Link
Docker Container
Allerdings funktioniert das Skript nur indem man ihm direkt die Datei mitgibt.
Hier kommt GNU parallel ins Spiel, mit dem laut Dokumentation die Erstellung eines Batch-Jobs möglich ist.
Dokumentation Batch Jobs
Also:
1. Bisher im Ordner aufgelaufene Dateien erkennen.
2. Alle Dateien mit OCR-Layer versehen und Ergebnis als neue Datei in anderem Verzeichnis abspeichern.
[3. Umgang mit Originalen fehlt ]
Hier brauche ich eure Hilfe, denn ich habe leider keine große Erfahrung mit Linux-Systemen und Synology NAS im Besonderen.
Außerdem will ich keine Garantie verletzen.
In meiner naiven Welt kann das Synology NAS mit einer zeitgesteuerten Aufgabe im DSM per GNU parallel den docker Container mit OCRmyPDF starten.
Alle bis zu diesem Zeitpunkt gescannten Bild-PDFs im Verzeichnis A werden mit OCR-Layer versehen und als PDF/A in Verzeichnis B abgelegt.
Die Originale werden im Erfolgsfall nach Verzeichnis C verschoben.
Im Misserfolgsfall bleiben die Originale für einen neuen Versuch im Verzeichnis A.
Damit brauche ich zumindest Hilfe beim Einrichten der Aufgabe und Installation von GNU parallel.
Oder ihr habt eine andere Idee, wie ich den Batchjob deichseln kann.
Über eure Hilfe würde ich mich wirklich sehr freuen.