Hallo geimist!
Ich finde deine GUI recht gut und hätte da noch einige Verbesserungsvorschläge/Wünsche.
Da die Tags, die von synOCR vergeben werden, nicht immer genau passen oder fehlen und es zu mühsam ist, diese per Hand anzupassen, habe ich ein Tool gesucht das dieses übernehmen kann. Da habe ich in dem Beitrag
https://www.gruenert.de/private-dokumente-digital-verwalten/ das Tool TagSpaces gefunden und auspropiert. Das Tool läuft super under Windows. Die Web Variante habe ich noch nicht auspropiert. Allerdings tagged das Tool die Dateien in dem Format Dateiname[Tag1 TagN].Dateiendung und deine Logik in dem Format Dateiname #Tag1 #TagN.Dateiendung. Damit ich die Tags die von deinem Tool geschrieben werden mit TagSpaces verwalten kann, habe ich in der synOCR.sh folgende Zeilen geändert.
Rich (BBCode):
--- synOCR.sh.org 2019-04-02 13:49:04.552749656 +0200
+++ synOCR.sh 2019-04-02 13:49:09.929700355 +0200
@@ -380,7 +380,7 @@
echo -n " Suche nach Tag: "${searchtag}" => "
if grep $grep_opt "${searchtag}" "$searchfile" ;then
echo "OK (Cat: "${categorietag}")"
- renameTag="#$(echo "${searchtag}" | sed -e "s/ /%20/g") ${renameTag}"
+ renameTag="$(echo "${searchtag}" | sed -e "s/ /%20/g") ${renameTag}"
renameCat="$(echo "${categorietag}" | sed -e "s/ /%20/g") ${renameCat}"
else
echo "-"
@@ -395,14 +395,14 @@
echo -n " Suche nach Tag: "$(echo ${tagarray[$i]} | sed -e "s/%20/ /g")" => "
if grep $grep_opt "$(echo ${tagarray[$i]} | sed -e "s/%20/ /g" | sed -e "s/^??//g")" "$searchfile" ;then
echo "OK"
- renameTag="#${tagarray[$i]} ${renameTag}"
+ renameTag="${tagarray[$i]} ${renameTag}"
else
echo "-"
fi
fi
i=$((i + 1))
done
- renameTag=${renameTag% }
+ renameTag="[${renameTag% }]"
renameCat=${renameCat% }
echo " renameTag lautet: "$(echo "$renameTag" | sed -e "s/%20/ /g")""
}
Nun werden die Tags so geschrieben, das sie komfortabel geändert werden können.
Anzumerken ist noch, das Tagspaces keine Tags mit Leerzeichen kennt, so das Tags mit Leerzeichen von synOCR, als zwei einzelne Tags in Tagspaces behandelt werden. Das ist aber nicht weiter schlimm und damit kann ich leben.
Übrigens habe ich das beschriebene Scanbot auch auspropiert und die fotografierten/ocrten PDF Dateien von Scanbot in den input Ordner hoch geladen. Damit kommt synOCR aber nicht klar und vergibt keine Tags. Der OCR Layer in den PDF Dateien von Scanbot wird durch OCRmyPDF verändert, obwohl das doch nicht so sein sollte. Wenn ich ein frisch von Scanbot erzeugtes PDF durch pdftotext jage, ist der Text in Ordnung und würde so auch von synOCR zur Tagerkennung funktonieren. Nach dem synOCR Lauf ist der erzeugte Text von pdftotext aber in einem anderen Format. Hinter jedem Buchstaben steht ein Leerzeichen. Das muß also sowas wie Unicode oder so sein. Lässt sich das irgendwie beheben? Dieses Verhalten ist bei Dateien ohne OCR Layer, die zweimal durch synOCR gejagt werden, nicht so, die werden von OCRmyPDF nicht verändert. Woran kann das liegen? Wenn das funktionieren würde, hätte ich mit meinem Handy einen günstigen Scanner.
Dann hätte ich noch folgende Idee. Kann man das Script so anpassen, das der Präfix der Dateien das gleichnamige Profil anzieht? Wenn kein passendes Profil gefunden wird, wird das default Profil angezogen. Somit könnten von verschiedenen Quellen, mit verschiedenen Prefixen, verschiedene Aktionen ausgelöst werden.