synOCR synOCR - GUI für OCRmyPDF

jankos61 · 06. Aug. 2022

Hi, ich habe leider nicht alle 143 Seiten gelesen ;-), in der Hilfe in die Richtung aber nichts gefunden, und zu der Frage: Lassen sich mehrere Inbox-Ordner definieren? nach dem Muster: Scanner 1, Scanner 2, Handyscanner 1, Handyscanner2. wie ich verstanden habe ein Outbox mit mehreren Unterordnern ist kein Problem.
Andere Möglichkeit wäre, die genannten Ordner in die Inbox duplizieren.

Monacum · 06. Aug. 2022

Ja, du kannst für jede Regel eine eigene "Inbox" festlegen.

jankos61 · 06. Aug. 2022

Du meinst, mehrere Profile einrichten und die werden nacheinander abgearbeitet?

geimist · 06. Aug. 2022

Mehrere Profile ist korrekt.
Man kann auch mit Präfixen und Suffixen im Quelldateinamen in Verbindung mit EINEM Quellordner arbeiten. Mehrere Profile sind aber immer nötig, wenn hier eine differenzierte Handhabung gewünscht ist.

jankos61 · 06. Aug. 2022

Vielen Dank für die schnelle Hilfe.

Lazy-Crocodile · 10. Aug. 2022

Mal eine Frage zu den Regeln. Gibt es die Möglichkeit, schon gesetzte Tags abzufragen?

Beispiel: Ich habe in einer Rule schon das Tag "Rechnung" gesetzt. In einer späteren Rule will ich nur dann ein neues Tag setzen, wenn das Tag "Rechnung" nicht gesetzt ist.

geimist · 10. Aug. 2022

Das läuft ja auf eine Priorisierung hinaus, die schon von einigen gewünscht wurde, aber noch nicht implementiert ist. Derzeit geht das noch nicht, aber mal sehen, wann da was kommt.

kkrell · 10. Aug. 2022

Kann man aber mit einen Kniff lösen oder ? Die Regel um Rechnungen zu taggen verschiebt die Dateien ohne Rechnungs Tag in einen anderen Ordner.
Die nachfolgende Regel liest nur Dateien aus diesem Ordner aus und kann weiter verfahren. Sollte doch gehen? Ist nur bisschen umständlich.

Bzw. einfach einen negativ Regel erstellen, die nur auf Pdfs wirkt wo Rechnungen nicht gefunden wurde.

Lazy-Crocodile · 11. Aug. 2022

Du meinst also ein weiteres Profil, gute Idee. Hiermit umgehe ich ja die Priorisierung, kann nur sein, dass die Abarbeitung nicht in diesem sondern erst im nächsten Lauf stattfindet. Oder können die Profile irgendwie priorisiert/in Reihenfolge gebracht werden.

Und noch einmal ein riesen Lob an geimist für diese tolle Software.

geimist · 11. Aug. 2022

Lazy-Crocodile schrieb:
Oder können die Profile irgendwie priorisiert/in Reihenfolge gebracht werden.

Derzeit wird die Abfolge der Profile nicht sortiert (wahrscheinlich ist die Reihenfolge die des Profilerstellzeitpunktes, d.h. dessen ID). Ich werde aber eine Sortierung nach Profilnamen implementieren. Somit wäre man in der Lage, die Reihenfolge festzulegen.

jankos61 · 11. Aug. 2022

Wie installiere ich neue Sprache?, OCRmyPDF läuft als Anwendung auf DS, nicht im Container.

geimist · 11. Aug. 2022

Dann nutzt du es aber auch nicht mit synOCR, richtig?
Nach welcher Anleitung hast du es denn installiert?

jankos61 · 11. Aug. 2022

Die Anleitung weiß ich nicht mehr aber die Datei hab ich hier noch - "synOCR_DSM7_v1.2.0.spk"
Meinst Du im Container ist es besser?

plang.pl · 11. Aug. 2022

synOCR läuft immer als Paket.
Es nutzt aber das Image OCRmyPDF und das läuft in Docker. Es muss nur heruntergeladen sein und die Parameter in synOCR richtig eingestellt sein.

jankos61 · 11. Aug. 2022

soll ich allso das "geimist/ocrmypdf-polyglot"nehmen richtig?

plang.pl · 11. Aug. 2022

Entweder das, oder das von jbarlow83(Standardeinstellung). Geht beides. Muss nur in der synOCR GUI richtig ausgewählt werden:

jankos61 · 11. Aug. 2022

hoffentlich die letzte Frage, du hast das ganze in Deutsch und bei mir ist Englisch, woran liegt das?

geimist · 11. Aug. 2022

jankos61 schrieb:
Wie installiere ich neue Sprache?

Wähle das ocrmypdf-polyglot Image wie oben beschrieben in der GUI aus. Darin sind alle Tesseract-Sprachen enthalten.

jankos61 schrieb:
hoffentlich die letzte Frage, du hast das ganze in Deutsch und bei mir ist Englisch, woran liegt das?

Die Sprachauswahl stammt von ursprünglich von @QTip. Ich hab sie dann von @Tommes übernommen. Meines Wissens werden verschiedene Dinge berücksichtigt, u.a. die Systemsprache, Browsersprache …

Hier ein Zitat aus dem Code:

# Funktion zur Ermittlung der eingestellten Sprache
# - DSM Sprache ermitteln (aus synoinfo.conf)
# - Browser Sprache ermitteln (aus ${HTTP_ACCEPT_LANGUAGE})
# - wenn DSM Sprache = default, dann benutze Browser Sprache
# - Persönliche DSM Sprache ermitteln (aus usersettings)
# - falls Persönliche DSM Sprache = default, dann benutze weiterhin die zuvor
# ermittelte Sprache, ansonsten benutze die ermittelte Persönliche DSM Sprache
# - ist DSM Sprache und Persönliche DSM Sprache = "def" und Browser Sprache nicht gesetzt, dann benutze Standard Sprache (DEFLANG)
# Prioritäten: 1. Persönliche DSM Sprache =2. DSM Sprache =3. Browser Sprache =4. Standard Sprache

DirkKn · 12. Aug. 2022

Hi Stephan,

ich lese hier schon eine ganze Weile lang mit.
Hauptsächlich verwende ich für mein Dokumentenmanagement ecoDMS.
Habe aber irgendwo gelesen, dass die Texterkennung mit synOCR besser sein soll und habe auch noch immer ein etwas ungutes Gefühl, wie ich an die Dokumente rankommen soll, wenn ecoDMS mal korrupt oder nicht mehr zugreifbar sein sollte.

Deswegen würde ich zum einen gerne die OCR mit synOCR durchführen und dann erst in den ScanInput Ordern von ecoDMS schieben lassen und als "zweite Version" in die Ordnerstruktur von synOCR.

Somit führt das zu einem, ich meine einfach zu implementierenden

, Featurewunsch: neben Ziel- und Backup-Verzeichnis auch ein "2.-Kopie-Verzeichnis" angeben zu können.

Wäre super, wenn du das implementieren würdest.

Danke und viele Grüße
Dirk

geimist · 12. Aug. 2022

Vorschlag: Verwende einfach das synOCR Backupverzeichnis als Inputverzeichnis von ecoDMS.
Der einzige Nachteil wäre, dass ecoDMS nicht von dem genauerem OCR durch OCRmyPDF profitieren würde.

Man könnte auch eine Tagregel erstellen, die quasi immer greift (z.B. ein Leerzeichen) und diese Regel mit dem ecoDMS Inputordner als Zielordner verknüpfen.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat