synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.508
Punkte für Reaktionen
1.344
Punkte
234
Ich weiß nicht, ob man da eine entsprechende Routine mit einbauen sollte.
Beim Bauen des ocrmypdf-polyglot Image lasse ich anschließend immer noch diese Aufräumaktion ausführen:
Bash:
# step 1:
    /usr/local/bin/docker image prune -f
# step 2:
    for i in $(/usr/local/bin/docker images --filter "dangling=true" --format "{{.ID}}:{{.Repository}}:{{.Tag}}" | grep "<none>");do
        /usr/local/bin/docker image rm -f $(echo "$i" | awk '-F:' '{print $1}')
    done

Ob das die richtige Art und Weise ist, könnte vielleicht @haydibe beurteilen?
 

haydibe

Benutzer
Sehr erfahren
Mitglied seit
12. Apr 2016
Beiträge
1.518
Punkte für Reaktionen
404
Punkte
103
Code:
docker image prune -a
sollte völlig ausreichen.

Neben den "referenzlosen" dangling Images, löscht es auch alle Images, die gerade nicht von einem Container verwendet werden.
 
  • Like
Reaktionen: geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.508
Punkte für Reaktionen
1.344
Punkte
234
Danke.
Neben den "referenzlosen" dangling Images, löscht es auch alle Images, die gerade nicht von einem Container verwendet werden.
Das würde ja dann auch jedes mahl das OCRmyPDF-Image löschen, welches ja nur temporär benötigt wird, oder?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.508
Punkte für Reaktionen
1.344
Punkte
234
Hallo Stephan,
du kommentiertes dies in Betrag #1.317
Wenn ich mehre Tags vergeben möchte, ist das doch keine echte Lösung?
Dann würde mein Dateiname ja um jeden Tag länger werden?
Wie soll es denn sonst sein?
Wenn du die Tags nicht im Dateinamen möchtest, dann verzichte halt auf §tag in der Umbenennungssyntax, oder habe ich etwas falsch verstanden?
 

Modiso

Benutzer
Mitglied seit
11. Mrz 2017
Beiträge
7
Punkte für Reaktionen
0
Punkte
1
Guten Morgen Stephan,
kann man im Profil unter OCR Optionen und Umbenennung / Suchmuster Quelldateiname auch mehrere Präfixe eingeben?
Beispiel: kunden_,lieferanten_,
Wie könnte ich das über synOCR_YAMLRULEFILE realisieren?
Wo müsste ich da die Präfixe eintragen, damit Dateien direkt in entsprechende Ordner landen?
Erstelle am Scanner entsprechende Profile mit Präfixe.
Meine das hier noch nirgends gelesen zu haben...
 

vistalba

Benutzer
Mitglied seit
21. Dez 2020
Beiträge
12
Punkte für Reaktionen
0
Punkte
1
Ich habe nun auf DSM7 aktualisiert und soweit funktioniert es.
Das Script habe ich im Aufgabenplaner kontrolliert und ist da. Hab es auch extra Mal manuell gestartet.

Trotzdem habe ich leider immer wieder folgende Meldung, wenn ich im GUI über den blauen Button drücke um den Prozess sofort zu starten:

! ! ! Quellverzeichnis in der Konfiguration prüfen ! ! !
Programmlauf wird beendet.

Die Ordner habe ich kontrolliert und stimmen 100% genau mit den Eigenschaften überein (inkl. gross-/kleinschreibung). Es funktioniert ja auch im Cron-Job.
Was ich sehe ist, dass er gar nicht erst den Docker startet und auch das Image nicht runterlät (wenn ich es vorher Mal lösche). Folglich gibt es auch kein Log-File im Ordner. :(

Irgend eine Idee, woran das liegen könnte?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.508
Punkte für Reaktionen
1.344
Punkte
234
Was ich sehe ist, dass er gar nicht erst den Docker startet und auch das Image nicht runterlät …
Die Fehlermeldung bezieht sich auf das Quellverzeichnis. Wenn da nichts gefunden wird (weil es ein Problem mit dem Pfad gibt), bricht das Skript ab - es gibt ja keine PDF, die man an OCRmyPDF übergeben könnte.

Wie sieht das Symbol auf der Startseite aus? Grüner Haken oder blaue Sanduhr?

Es funktioniert ja auch im Cron-Job.
Heißt das, dass die Dateien über den Aufgabenplaner erfolgreich abgearbeitet werden, aber nicht über die GUI?
Hast du evtl. ein weiteres Profil angelegt, in dem die Pfade vielleicht doch nicht stimmen?
 

vistalba

Benutzer
Mitglied seit
21. Dez 2020
Beiträge
12
Punkte für Reaktionen
0
Punkte
1
Wie sieht das Symbol auf der Startseite aus? Grüner Haken oder blaue Sanduhr?

Es zeigt den grünen Hacken. Das Problem wenn ich über das GUI starte tritt aber auch auf, wenn ein PDF im Quellverzeichnis liegt.
1639418203065.png
Wenn ich nach dieser Meldung einfach abwarte, bis das synOCR (alle 15 Minuten) über den Cron-Job läuft. Dann funktioniert es.

Hast du evtl. ein weiteres Profil angelegt, in dem die Pfade vielleicht doch nicht stimmen?
Es gibt drei Profile und bei allen Profilen stimmt das Quellverzeichnis genau überein. Die Fehlermeldung erscheint dann auch 3 Mal (für jedes Profil ein Mal). Wenn ich ein Profil deaktiviere erscheint die Meldung nur zwei Mal.
Wenn ich (statt über den blauen Button) über den Aufgabenplaner das synOCR Script starte, funktioniert es auch.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.508
Punkte für Reaktionen
1.344
Punkte
234
Kannst du mir mal bitte deine Konfigurationsdatenbank hochladen? (Link in meiner Signatur)
Die erhältst du über den Downloadbutton unten auf der Konfigurationsseite.
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Hallo zusammen, arbeitsbedingt musste dieses schöne Projekt leider lange ruhen. Jetzt ist wieder Zeit.
Hat schon mal jemand das Problem gehabt das nach dem Skript, also Regeln und Umbenennung alles korrekt gelaufen, da PDF unter Windows und Android nicht gelesen werden konnte weil Zeichensätze fehlen? Kann ich das irgendwo einstellen welcher Zeichensatz verwendet wird, oder macht ocr da nichts dran? Das original Dokument kann ich lesen. Wenn ich es gescannt habe sagt mir Android und Windows das sie es nicht öffnen können weil zeichsatze fehlen, bzw unter Android sind nur komische Zeichen zu sehen
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
OK das muss ich erst bearbeiten, das sind nämlich meine Kontoauszüge 😁.
Aber ich habe dann gestern noch gesehen das es auf dem Handy mit einem anderen PDF Reader geht. Mit dem Adobe geht es nicht. Auf dem PC muss ich das heute nochmal mit einem anderen testen.
Beispieldatei? Brauchst du das original, oder die bearbeitete?
 

hergi

Benutzer
Mitglied seit
29. Jan 2015
Beiträge
7
Punkte für Reaktionen
1
Punkte
53
Hallo,
habe gerade mit Portainer einige GB an "alten" Docker images mit der Bezeichnung jbarlow83/ocrmypdf gefunden.
Anscheinend werden diese beim Update nicht aufgeräumt. Ich hatte mich schon gewundert, warum meine backup Daten
ständig gewachsen sind.
Es wäre gut, wenn man das Löschen alter Images beim Update implementieren könnte.
Portainer ist ja wirklich recht mächtig, danke für den Tipp. Auch ich habe einige verweiste Images finden und löschen können damit.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.508
Punkte für Reaktionen
1.344
Punkte
234
Beispieldatei? Brauchst du das original, oder die bearbeitete?
Im Idealfall beide. Aber bitte nicht die von synOCR bearbeitete Datei modifizieren. Wenn, dann schwärze bitte das gescannte Original und lass es anschließend von synOCR bearbeiten.
 

hergi

Benutzer
Mitglied seit
29. Jan 2015
Beiträge
7
Punkte für Reaktionen
1
Punkte
53
Keine Ahnung. Wenn du nichts geändert hast, würde ich mal auf ein Problem mit dem OCRmyPDF-Image tippen. Die letzten Tage gab es ein Update und heute ein weiteres. Lösche mal dein aktuelles und probiere es bitte mal erneut.
Hallo,

ich habe mir von https://geimist.eu/synOCR/ die aktuelle Version gezogen und die meine DS918+ aktualisiert.
Aber woran sehe ich denn, dass es eine "neue" Version ist? In der Beschreibung im Paket-Zentrum steht weiterhin 1.1.2 in den "Release Notes" :unsure:
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat