synOCR synOCR - GUI für OCRmyPDF

geimist · 11. Dez 2021

Ich weiß nicht, ob man da eine entsprechende Routine mit einbauen sollte.
Beim Bauen des ocrmypdf-polyglot Image lasse ich anschließend immer noch diese Aufräumaktion ausführen:

Bash:

# step 1:
    /usr/local/bin/docker image prune -f
# step 2:
    for i in $(/usr/local/bin/docker images --filter "dangling=true" --format "{{.ID}}:{{.Repository}}:{{.Tag}}" | grep "<none>");do
        /usr/local/bin/docker image rm -f $(echo "$i" | awk '-F:' '{print $1}')
    done

Ob das die richtige Art und Weise ist, könnte vielleicht @haydibe beurteilen?

haydibe · 11. Dez 2021

Code:

docker image prune -a

sollte völlig ausreichen.

Neben den "referenzlosen" dangling Images, löscht es auch alle Images, die gerade nicht von einem Container verwendet werden.

geimist · 11. Dez 2021

Danke.

haydibe schrieb:
Neben den "referenzlosen" dangling Images, löscht es auch alle Images, die gerade nicht von einem Container verwendet werden.

Das würde ja dann auch jedes mahl das OCRmyPDF-Image löschen, welches ja nur temporär benötigt wird, oder?

haydibe · 11. Dez 2021

Jepp, genau so sollte es sein. Hat halt vor und Nachteile.

geimist · 11. Dez 2021

Schrotti schrieb:
Hallo Stephan,
du kommentiertes dies in Betrag #1.317
Wenn ich mehre Tags vergeben möchte, ist das doch keine echte Lösung?
Dann würde mein Dateiname ja um jeden Tag länger werden?

Wie soll es denn sonst sein?
Wenn du die Tags nicht im Dateinamen möchtest, dann verzichte halt auf §tag in der Umbenennungssyntax, oder habe ich etwas falsch verstanden?

Modiso · 12. Dez 2021

Guten Morgen Stephan,
kann man im Profil unter OCR Optionen und Umbenennung / Suchmuster Quelldateiname auch mehrere Präfixe eingeben?
Beispiel: kunden_,lieferanten_,
Wie könnte ich das über synOCR_YAMLRULEFILE realisieren?
Wo müsste ich da die Präfixe eintragen, damit Dateien direkt in entsprechende Ordner landen?
Erstelle am Scanner entsprechende Profile mit Präfixe.
Meine das hier noch nirgends gelesen zu haben...

geimist · 12. Dez 2021

Dann erstelle einfach weitere Profile. Je Profil ist lediglich ein Prä- / Suffix einstellbar.

vistalba · 13. Dez 2021

Ich habe nun auf DSM7 aktualisiert und soweit funktioniert es.
Das Script habe ich im Aufgabenplaner kontrolliert und ist da. Hab es auch extra Mal manuell gestartet.

Trotzdem habe ich leider immer wieder folgende Meldung, wenn ich im GUI über den blauen Button drücke um den Prozess sofort zu starten:

! ! ! Quellverzeichnis in der Konfiguration prüfen ! ! !
Programmlauf wird beendet.

Die Ordner habe ich kontrolliert und stimmen 100% genau mit den Eigenschaften überein (inkl. gross-/kleinschreibung). Es funktioniert ja auch im Cron-Job.
Was ich sehe ist, dass er gar nicht erst den Docker startet und auch das Image nicht runterlät (wenn ich es vorher Mal lösche). Folglich gibt es auch kein Log-File im Ordner.

Irgend eine Idee, woran das liegen könnte?

geimist · 13. Dez 2021

vistalba schrieb:
Was ich sehe ist, dass er gar nicht erst den Docker startet und auch das Image nicht runterlät …

Die Fehlermeldung bezieht sich auf das Quellverzeichnis. Wenn da nichts gefunden wird (weil es ein Problem mit dem Pfad gibt), bricht das Skript ab - es gibt ja keine PDF, die man an OCRmyPDF übergeben könnte.

Wie sieht das Symbol auf der Startseite aus? Grüner Haken oder blaue Sanduhr?

vistalba schrieb:
Es funktioniert ja auch im Cron-Job.

Heißt das, dass die Dateien über den Aufgabenplaner erfolgreich abgearbeitet werden, aber nicht über die GUI?
Hast du evtl. ein weiteres Profil angelegt, in dem die Pfade vielleicht doch nicht stimmen?

vistalba · 13. Dez 2021

geimist schrieb:
Wie sieht das Symbol auf der Startseite aus? Grüner Haken oder blaue Sanduhr?

Es zeigt den grünen Hacken. Das Problem wenn ich über das GUI starte tritt aber auch auf, wenn ein PDF im Quellverzeichnis liegt.

Wenn ich nach dieser Meldung einfach abwarte, bis das synOCR (alle 15 Minuten) über den Cron-Job läuft. Dann funktioniert es.

geimist schrieb:
Hast du evtl. ein weiteres Profil angelegt, in dem die Pfade vielleicht doch nicht stimmen?

Es gibt drei Profile und bei allen Profilen stimmt das Quellverzeichnis genau überein. Die Fehlermeldung erscheint dann auch 3 Mal (für jedes Profil ein Mal). Wenn ich ein Profil deaktiviere erscheint die Meldung nur zwei Mal.
Wenn ich (statt über den blauen Button) über den Aufgabenplaner das synOCR Script starte, funktioniert es auch.

geimist · 13. Dez 2021

Kannst du mir mal bitte deine Konfigurationsdatenbank hochladen? (Link in meiner Signatur)
Die erhältst du über den Downloadbutton unten auf der Konfigurationsseite.

Gthorsten · 13. Dez 2021

Hallo zusammen, arbeitsbedingt musste dieses schöne Projekt leider lange ruhen. Jetzt ist wieder Zeit.
Hat schon mal jemand das Problem gehabt das nach dem Skript, also Regeln und Umbenennung alles korrekt gelaufen, da PDF unter Windows und Android nicht gelesen werden konnte weil Zeichensätze fehlen? Kann ich das irgendwo einstellen welcher Zeichensatz verwendet wird, oder macht ocr da nichts dran? Das original Dokument kann ich lesen. Wenn ich es gescannt habe sagt mir Android und Windows das sie es nicht öffnen können weil zeichsatze fehlen, bzw unter Android sind nur komische Zeichen zu sehen

geimist · 13. Dez 2021

Das ist mir neu. Kannst du mir mal eine Beispieldatei schicken?

Gthorsten · 14. Dez 2021

OK das muss ich erst bearbeiten, das sind nämlich meine Kontoauszüge

.
Aber ich habe dann gestern noch gesehen das es auf dem Handy mit einem anderen PDF Reader geht. Mit dem Adobe geht es nicht. Auf dem PC muss ich das heute nochmal mit einem anderen testen.
Beispieldatei? Brauchst du das original, oder die bearbeitete?

hergi · 14. Dez 2021

dhaesel schrieb:
Hallo,
habe gerade mit Portainer einige GB an "alten" Docker images mit der Bezeichnung jbarlow83/ocrmypdf gefunden.
Anscheinend werden diese beim Update nicht aufgeräumt. Ich hatte mich schon gewundert, warum meine backup Daten
ständig gewachsen sind.
Es wäre gut, wenn man das Löschen alter Images beim Update implementieren könnte.

Portainer ist ja wirklich recht mächtig, danke für den Tipp. Auch ich habe einige verweiste Images finden und löschen können damit.

vistalba · 14. Dez 2021

geimist schrieb:
Kannst du mir mal bitte deine Konfigurationsdatenbank hochladen? (Link in meiner Signatur)

Irgendwie funktioniert bei mir der Link "Logfile-Upload" nicht. Die Seite läd einfach nicht. Ein Problem auf deiner Seite?

geimist · 14. Dez 2021

Möglicherweise liegt es an der Firewall. Aus welchem Land rufst du die Seite auf?

geimist · 14. Dez 2021

Gthorsten schrieb:
Beispieldatei? Brauchst du das original, oder die bearbeitete?

Im Idealfall beide. Aber bitte nicht die von synOCR bearbeitete Datei modifizieren. Wenn, dann schwärze bitte das gescannte Original und lass es anschließend von synOCR bearbeiten.

vistalba · 14. Dez 2021

geimist schrieb:
Möglicherweise liegt es an der Firewall. Aus welchem Land rufst du die Seite auf?

Hab nochmal probiert. Nun hat es funktioniert. File ist bei dir.

hergi · 14. Dez 2021

geimist schrieb:
Keine Ahnung. Wenn du nichts geändert hast, würde ich mal auf ein Problem mit dem OCRmyPDF-Image tippen. Die letzten Tage gab es ein Update und heute ein weiteres. Lösche mal dein aktuelles und probiere es bitte mal erneut.

Hallo,

ich habe mir von https://geimist.eu/synOCR/ die aktuelle Version gezogen und die meine DS918+ aktualisiert.
Aber woran sehe ich denn, dass es eine "neue" Version ist? In der Beschreibung im Paket-Zentrum steht weiterhin 1.1.2 in den "Release Notes"