@Monacum:
zu 1. ja, zwei OCR-Texte in einem Dokument sind nicht besonders sinnvoll - außer wenn der zweite OCR Text (der den ersten überschreibt) deutlich schlecher wäre wie der erste - aber es wäre auch sehr hinderlich wenn ich in einem OCR PDF ein Stichwort suche und dann an der selben Stellen zwei Mal angezeigt bekommen, wenn der Text zwei Mal gespeichert ist am Dokument.
Und inzwischen halte ich es für sehr wahrscheinlich, dass paperless zusätzlich den OCR Text auch in der Datenbank ablegt - sonst wäre eine Volltextsuche so gut wie unmöglich.
zu 3. erneuter Versuch das Bild1 anzuhängen, ja das sind Attribute der Datei. Schade, dass paperless seine tags nicht auch als Atribute an der archived Datei speichert, sowie schon bestehende Atribute aus der Originaldatei nutzen kann (und wenn ich mir was wünschen dürfte, sollte paperless das "date created" als "date modified" ebenfalls an der archived Datei speichern). Das würde die einfache Nutzung der wichtgsten Metadaten langfristig garantieren und untrennbar mit der Quelle verbinden. Denn jedes DMS ist nach zehn Jahren möglicherweise und nach zwanzig Jahren wahrscheinlich nicht mehr am Markt. Die PDFs dagegen werden wahrscheinlich viele Jahrezehnte nutzbar sein (jetzt immerhin schon 31 Jahre) - und das wäre gerade in der Ahnenforschung sehr wünschenswert, da reden wir von Nutzung für einigen Generationen.
Auf jeden Fall hast Du mir schon sehe geholfen und ich werde wohl paperless bald installieren. Und mittelfristig versuchen eigene Mechanismen zu entwickeln, wie ich die wichtgsten Metadaten (also date created, tags und der orginale Dateiname) an die archived Dateien bekomme - vielleicht auch noch an die orignal Dateien.
PS: wobei ich vermutlich auf 2.0 warten sollten, um nicht gleich am Anfang einen komplizerten Upgrade machen zu müssen.