- Mitglied seit
- 04. Jan 2012
- Beiträge
- 5.550
- Punkte für Reaktionen
- 1.380
- Punkte
- 234
Darf ich vorstellen: synOCR – mach deine Synology DiskStation zum papierlosen Büro
Für alle, die es brauchen, habe ich mal eine kleine GUI für den Dockercontainer OCRmyPDF erstellt. Nicht jeder fummelt ja gerne an Skripten herum. Außerdem hatten ja einige in Verbindung mit dem PHP-Skript Rechteprobleme. synOCR ruft den Dockercontainer etwas anders auf, sodass es mit jedem Ein- und Ausgabeordner funktionieren sollte.
Was ist synOCR?
synOCR ist eine native App für Synology DSM. Damit kannst du einfach OCR (Texterkennung) auf PDF-Dokumente direkt auf den NAS anwenden, da Scans ja in der Regel zunächst nur aus einer Bilddatei bestehen. synOCR kann anschließend nach Tags und Datum in den Dokumenten suchen, diese nach einem individuellen Muster umbenennen und nach Kategorien, Tags oder Jahren in Ordner einsortieren. Durch Verwendung von Hardlinks entsteht auch kein erhöhter Speicherplatzbedarf, wenn ein Dokument in mehrere Kategorieordner einsortiert werden muss.Vorteile im Vergleich zu alternativer Software:
- Alle Dokumente verbleiben im Benutzerdateisystem. Sie bleiben immer für dich zugänglich und du kannst wie gewohnt mit ihnen arbeiten.
- Die Nutzung von synOCR erfordert keine proprietäre Datenbank. Daher brauchst du dir bei Updates keine Gedanken machen, ob du nachher noch an deine Dokumente kommst.
- Für OCR und Archivierung sollte nie jemand auf eine Cloud angewiesen sein – synOCR macht den Himmel für dich ‚wolkenlos‘. ;-)
- synOCR ist Open Source – das bedeutet für dich nicht nur ‚kostenfrei‘, sondern auch, dass jeder den Quellcode prüfen kann
- Einfache Grundinstallation in 3 Schritten ( SPK installieren Ordnerpfade eintragen DSM Aufgabenplaner konfigurieren) und bei einem Update muss man sich keine Sorgen um eine Datenbank machen.
Download:
Hauptfunktionen:
- konvertiert Bilder nach PDF
- macht PDF-Scans mit der Texterkennung von OCRmyPDF durchsuchbar
- teilt Dokumente mit Hilfe von Trennblättern auf
- sucht nach Datum im Text und passt den Dateinamen nach eigenen Muster an
- es sind einfache Regeln in der GUI sowie komplexe YAML-Regeln (auf Wunsch auch als RegEx) definierbar
- Sortierung der Dokumente in Regel basierte Ordner oder nach Datum
- und so manches mehr …
Voraussetzungen und Hinweise:
- Idealerweise nutzt man seinen Workflow in Verbindung mit einem netzwerkfähigen Dokuementenscanner.
Es gehen aber natürlich auch Scan-Apps, welche die Dateien auf dem NAS ablegen. - Zweite Voraussetzung ist ein dockerfähgies NAS, d.h. es muss eine x86_64 CPU (Intel oder AMD) oder einen 64bit ARM-CPU haben (aarch64).
Der Grund: Docker muss installiert sein (entweder als Synologypaket oder manuell - auch auf aarch64 möglich). - Eine DS mit aarch64 CPU benötigt zusätzlich das Paket Python 3.9 (läuft ab synOCR v1.4.2).
- Docker und OCRmyPDF erfordern in Regel seitens synOCR keinerlei zusätzliche Konfiguration. Um alles Nötige kümmert sich synOCR.
- Anleitung und Hilfe findest du außer in diesem Thread auch im Wiki (befindet sich noch im Aufbau - derzeit nur in deutscher Sprache).
- Sofern ihr OCRmyPDF bisher noch nicht genutzt habt, dauert der erste Programmlauf etwas länger, da das entsprechende OCRmyPDF Dockerimage zunächst geladen werden muss.
- Ab v1.3.0 wird zusätzlich (auch nach jedem Update) noch eine virtuelle Pythonumgebung erstellt. Das dauert ~1 Minute.
- Download von synOCR über cphub.net ist nicht zu empfehlen, da dort lediglich alte Versionen vorgehalten sind. Bitte verwende die oben verlinkte Möglichkeit.
- Derzeit führt kein Paketserver die aktuelle Version von synOCR. Deshalb sind Updates aktuell vom User manuell durchzuführen. Eine Benachrichtigung über eine neue Version gibt es auf der Startseite der GUI, im Log und im Benachrichtigungszentrum des DSM.
Ein besonderer Dank geht an:
- @Tommes für seine großartige Hilfe mit dem SPK
- @Gthorsten für die Unterstützung mit dem Pythoncode (insbesondere die Datumsuche)
- @Struppix für die Pflege der Dokumentation im WIKI und dem YAML-Creator
Bitte schreibt, wenn euch eine Funktion fehlt oder ihr euch eine Verbesserung wünscht.
14.10.23 & 15.11.23
- Beschreibung aktualisiert
- Abhängigkeit zu Python 3.9 auf einer DS mit aarch64 CPU hinzugefügt
- Beschreibung aktualisiert und strukturiert
- Features ergänzt
- Verweis auf Downloadmöglichkeit angepasst
Zuletzt bearbeitet: