synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Zuletzt bearbeitet:

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.210
Punkte für Reaktionen
1.034
Punkte
224
Im Output.log steht

synOCR run at DSM7 or above
➜ check admin permissions: ok
➜ check docker group and permissions: ok [docker:x:65540:synOCR]
Error: duplicate column name: search_nearest_date
Error: duplicate column name: date_search_method
Error: duplicate column name: clean_up_spaces
synOCR wurde gestartet ...
Bitte warten, bis die Dateien fertig abgearbeitet wurden.
Error: no such column: img2pdf
! ! ! Quellverzeichnis oder Berechtigung in der Konfiguration prüfen ! ! !
Programmlauf wird beendet.
Quellverzeichnisse sind wie gesagt leer, weil alle angelegten Konfigurationen leer sind.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Hast du meine Korrektur im Post gesehen?
Ich hab eine neue Version hochgeladen. Hast du die schon probiert?
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.210
Punkte für Reaktionen
1.034
Punkte
224
Nein, versuche ich gleich mal. Allerdings habe ich vorhin 1.2.0.1 aus dem HyperBackup geladen, und das hat das Problem nicht gelöst.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Ja, die DB ist in Ordnung. Ich hatte einen Fehler im Updateskript für die DB gefunden. Danach funktionierte deine DB auch bei mir.
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.210
Punkte für Reaktionen
1.034
Punkte
224
Wenn ich das Paket installiere, steht überall noch Version 1.2.0.4 (und es funktioniert leider bisher auch nicht). In deiner Verzeichnisliste wurde die spk für DSM7 auch am 29. Mai das letzte Mal geändert oder hochgeladen.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
In der Verzeichnisliste siehst du nur Weiterleitungen. Deren Änderungsdatum hat nichts zu sagen. Ich habe gerade die obigen Links getestet und mir wird die Version 1.2.0.5 geladen. Bitte nochmal checken.

EDIT:
@all: Version 1.2.0.5 hat den Fehler behoben. Vielen Dank für das Feedback!
 
Zuletzt bearbeitet:

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.210
Punkte für Reaktionen
1.034
Punkte
224
Jep, danke Dir nochmal Stephan für die Unterstützung!
 

Syngen

Benutzer
Mitglied seit
16. Jan 2014
Beiträge
9
Punkte für Reaktionen
2
Punkte
53
Erst einmal vielen Dank an @geimist für dieses tolle Projekt. Ich bin jetzt schon seit ein paar Wochen am testen und rumprobieren. Gerade das Thema mit den Regeln, Tags und Ordnersortierung ist sehr umfangreich.

Ich habe leider ein Problem bei dem automatischen abarbeiten der Dateien im Eingangsordner. Mein Dokumentenscanner scannt direkt in den Eingangsordner. Der Dokumentenscanner erstellt dabei direkt eine Datei und füllt diese langsam, bis der Scan zu Ende ist. SynOCR versucht aber sofort die Datei abzuarbeiten was dann zu folgender Fehlermeldung führt:

failed! (target file is empty or not available)

Erst wenn ich die Verarbeitung anschließend manuell starte wird die Datei verarbeitet.

Könnte man etwas einbauen, dass prüft bis die Datei vollständig ist. Z. B. keine Dateigrößenveränderung innerhalb von 30 Sekunden = Datei fertig --> SynOCR Verarbeitung starten.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Hallo @Syngen,

sehr interessant. Gehe ich recht in der Annahme, dass du die 'neue' Ordnerüberwachung in Verbindung mit inotifywait nutzt?

Derzeit werden zwei sogenannte Events überwacht: create und moved_to. Wir müssen mal gucken, ob wir hier an Stelle von create close_write nehmen. Das könnte dein Problem lösen. Ich hoffe nur, dass es keine Seiteneffekte zu anderen Szenarien birgt.

Traust du dir zu, eine Datei auf der Shell zu ändern? Wenn ja, dann kannst du mal in dieser Datei (/usr/syno/synoman/webman/3rdparty/synOCR/input_monitor.sh) folgende Änderung vornehmen in Zeile 27:

Von:
Bash:
nohup inotifywait --fromfile "${monitored_folders}" -e moved_to -e create --monitor --timeout -1 |
zu:
Bash:
nohup inotifywait --fromfile "${monitored_folders}" -e moved_to -e close_write --monitor --timeout -1 |

Im Anschluss einmal als root:
/usr/syno/synoman/webman/3rdparty/synOCR/input_monitor.sh stop
und dann noch ein:
/usr/syno/synoman/webman/3rdparty/synOCR/input_monitor.sh start


Folgende Dateievents sind übrigens möglich:
Code:
        access          file or directory contents were read
        modify          file or directory contents were written
        attrib          file or directory attributes changed
        close_write     file or directory closed, after being opened in writeable mode
        close_nowrite   file or directory closed, after being opened in read-only mode
        close           file or directory closed, regardless of read/write mode
        open            file or directory opened
        moved_to        file or directory moved to watched directory
        moved_from      file or directory moved from watched directory
        move            file or directory moved to or from watched directory
        move_self       A watched file or directory was moved.
        create          file or directory created within watched directory
        delete          file or directory deleted within watched directory
        delete_self     file or directory was deleted
        unmount         file system containing file or directory unmounted
 

Syngen

Benutzer
Mitglied seit
16. Jan 2014
Beiträge
9
Punkte für Reaktionen
2
Punkte
53
Gehe ich recht in der Annahme, dass du die 'neue' Ordnerüberwachung in Verbindung mit inotifywait nutzt?
ja genau. Nutze die Version 1.2.0.5 und inotify.

nohup inotifywait --fromfile "${monitored_folders}" -e moved_to -e close_write --monitor --timeout -1 |
habe die Zeile geändert und damit scheint es jetzt zu funktionieren. Werde ich die Tage weiter beobachten, aber sieht erst mal gut aus :)
 
  • Like
Reaktionen: geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Hallo zusammen,

Version 1.2.0.6 ist da.
Es gibt einige Verbesserungen:
  • @Gthorsten war wieder fleißig: Die alphanumerische Datumssuche funktioniert jetzt vollständig
    (Detailverbesserungen folgen noch)
  • in der GUI gibt es nun die Möglichkeit, die Suche für das Datum in der Vergangenheit und in der Zukunft einzuschränken.
    • ein vierstelliger Wert wird als absolutes Jahr gewertet
    • ein- bis dreistellig als relative Abweichung in Jahren
  • Information für ein bereitstehendes Update auch in Unterscheidung von Beta- und Releaseversionen in der GUI
  • Änderung des inotifywait-Events von create zu close_write (#2.669)
Das aktuelle Build gibts wie immer hier:

 
Zuletzt bearbeitet:

Syngen

Benutzer
Mitglied seit
16. Jan 2014
Beiträge
9
Punkte für Reaktionen
2
Punkte
53
Ich habe die Version 1.2.0.6 installiert. Das mit dem Datum ist super und funktioniert bisher bei allen Testdateien perfekt. Auch die Änderung bei dem inotify zu close_write scheint mein Problem gelöst zu haben.

Ich habe allerdings ein anderes Problem. Bisher wurden immer PDF/A-2b erzeugt, aber jetzt sind es nur noch normale PDF. Ich habe auch schon die Option
Code:
--output-type pdfa
und
Code:
--output-type pdfa-2
versucht, aber leider ohne Erfolg. Es werden immer nur normale PDF erzeugt.
Woran kann das liegen?
 
  • Like
Reaktionen: Gthorsten

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Ich kann mal im Code nachsehen. Ich habe aber nur den Teil mit dem Datum implementiert. Stephan ist da der bessere.
Sobakd er das liest word er sich bestimmt äußern.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Ich vermute, dass die PDF/A-Eigenschaft beim Schreiben der Metadaten verloren geht. Das muss ich mir mal näher angucken. Zur Not muss halt ein Schalter her, womit man auf die Metadaten verzichtet. Vielleicht finde ich auch eine Möglichkeit, die PDF/A-Eigenschaft via Python wiederherzustellen.

@Syngen :
Hattest du in der bisherigen Version Metadaten mit dem ExifTool schreiben lassen? Blieb dort der PDF/A-Standard erhalten?
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
@Syngen:
Bitte teste mal diese Version mit einer kleinen Korrektur: DSM6 / DSM7
 
  • Like
Reaktionen: Syngen

Syngen

Benutzer
Mitglied seit
16. Jan 2014
Beiträge
9
Punkte für Reaktionen
2
Punkte
53

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Sobald ein PDF/A verändert wird (was beim Setzen der Metadaten offenbar schon ausreicht), ist es erst einmal kein PDF/A mehr. Glücklicherweise kann ich im selben Schritt gleich wieder das PDF/A Attribut setzen. Schön, dass es funktioniert :)

Vielen Dank für dein Feedback!
 
Zuletzt bearbeitet:
  • Like
Reaktionen: Syngen

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
  • Like
Reaktionen: gunfran und Wiesel6

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Bitte teste mal diese Version mit einer kleinen Korrektur:
Ich werde hier nochmal nachbessern müssen. Aufgrund eines fehlenden Kommas wurden in der letzten Version gar keine Metadaten geschrieben, weshalb auch die PDF/A-Eigenschaft erhalten blieb. Nach der Korrektur passt es wieder nicht mit PDF/A.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat