Hallo Stefan!
Auch von mir ein großes Dankeschön für deine Arbeit und dass du sie zur Verfügung stellst. Dein Script läuft bei mir einwandfrei. Eine kleine Hürde sind die Umlaute und deren Codierung in der config (rename-rules und tagrules). Anstatt der Umlaute in Klarschrift, muss man halt die ISO-codierten Symbole verwenden, um dann UTF-8-Ausgabe im Dateinamen zu erhalten (oder wars andersrum? Naja, du weißt was ich meine). Ich hab mir einfach die Symbolkombinationen für Umlaute direkt in der config als Kommentar bereitgestellt und kopiere sie dann bei Bedarf einfach in den jeweiligen Array runter.
Was das Verschieben der fertigen Dateien angeht, versteh ich grundsätzlich deinen Ansatz. Natürlich sollte jede renamed-PDF auf Schlüssigkeit kontrolliert werden. Nur finde ich es auch sehr unübersichtlich, die für die manuelle Nachbearbeitung fertigen OCRed-PDFs in der "Inbox" zu belassen. Wenn man da mal in ner Woche 100 Dateien durch den Scanner jagd und erst am Wochenende Zeit für die Nachbearbeitung hat, kann man zwischendurch auch fehlerhafte (nicht bearbeitete) Dateien nicht so leicht von den unbearbeiteten und den ocr'ed-en Dateien unterscheiden. Ich arbeite mit einem Pyhton-Script, welches die moves durchführt. Sauber ist das aber nicht, da ich (und das ist die hässliche Lösung) keine "Kontrollinstanz" einbauen kann (dafür reichen meine Programmierkenntnisse nicht, um zB auf einen bestehenden Textlayer zu kontrollieren). Sauber wäre es, könnte dein Script im loop, direkt nach dem rename, die aktuelle im handling befindliche Datei in einen "Kontrollordner" moven, ehe die nächste Datei zum Zug kommt. Mit (m)einer Script-in-Script-Lösung ist das nicht unmöglich.
Ich hab schon mitbekommen, dass du kaum Zeit für dieses Script hast, zudem scheint es
geimist gerade gewisssermaßen weiter zu entwickeln (allerdings nicht mehr als Script). Ich glaube und hoffe aber, dass die move-Funktion für dich nur einen sehr geringen Aufwand darstellt (in Python sind es zB nur ein paar Zeilen) und du dich diesem großen Anliegen der Community noch annehmen kannst
Zuletzt zur Datumserkennung: soweit ich das in deinem Script gesehen habe, läuft die Datumserkennung nicht, wenn sie im Format
dd. Monat-ausgeschrieben yyyy vorliegt (was aber praktisch immer der Fall in Geschäftsbriefen ist). Glaubst du dieses Format auch noch mit einbauen zu können?
Ansonsten absolut großartige Arbeit!! Vielen Dank dafür!!
Christian