synOCR synOCR - GUI für OCRmyPDF

Thonav · 01. Juli 2023

Ich glaube Du wirst noch Influenzer, @Struppix

Trau Dich!!!!
Im Ernst - danke für die Mühe, aber mit Kommentaren wird es einfacher zu verstehen...

Struppix · 01. Juli 2023

Schon gut, ich werde mich daran versuchen, gewiss der Gefahr sich zum Affen zu machen mit einer Stimme die einem Frosch gleicht, der die Bekanntschaft mit den Schuhen einens nächtlichen Spaziergängers sucht. Vorausgesetzt es besteht meine persönliche Zensur.

Struppix · 02. Juli 2023

Hallo,
ich habe mich heute an einem Erklär-Video versucht, und ich hoffe Ihr seid milde mit Eurem Urteil. Immerhin ist es das erste Mal ....
Weiterhin hoffe ich nicht zu viel Unsinn zu erzählen.
Aus diesem Grund auch nicht bei YouTube sondern von meinem Server zum Download.
Part1 und Part2 Wie Ihr seht sind es 2 Teile geworden, da ich mich doch verquasselt habe und so ca. 50 Minuten zusammengekommen sind

Jetzt könnte ich behaupten wer es zu Ende schaut bekommt ne Kiste Bier, nö.

Also lasst mich bitte wissen ob es Euch etwas gebracht hat oder nicht, und wo oder zu was noch Erklärungsbedarf besteht.

Gruß
Karsten

Thonav · 02. Juli 2023

SEHR NICE, Danke Karsten!!

peterhoffmann · 02. Juli 2023

@Struppix
Ich bin ja total geflasht. Klasse.
Nun bringst du mich in "Zugzwang", sprich ich muss die Tage schauen, dass ich die Zeit finde mich damit zu beschäftigen.

Die Videos habe ich schon gesaugt.

Vielen Dank für deine Arbeit.

Struppix · 03. Juli 2023

Hallo,
wieder mal ich. Als ich gestern das Video gemacht habe ist mir aufgefallen, das ich einen möglichen Fehler beim Import in den Editor nicht abgefangen habe.
Konkret ist es möglich, und es wird nahezu alles per stream geprüft (zB. Excel, Word usw.) und per Fehlermeldung quittiert, aber die leere original Datei des synOCR Profils hatte ich nicht auf dem Schirm.
Dies wird in diesem Update gefixt. Weiterhin eine weitere kleine Optimierung entnommen aus Euren Kommentaren. Die Funktion Insert zeigt nur noch die notwendigen Felder, die zwingend zu befüllen sind, und wird nun in der selektierten Zeile eingefügt.

Code:

Änderungen in Vers. 01.04.01
- gefixt, Import der leeren Profil.txt Datei führte zu bleibendem Fehler im Script
- gändert, Insert rule / subrule wird nun in der selektierten Zeile ausgeführt,
   dabei werden nur nicht optionale values angezeigt, die zwingend zu befüllen sind

Gruß
Karsten

geimist · 04. Juli 2023

Meine lieben OCR Freunde:

Hier mal das aktuelle Release 1.4.0.
Besonderen Dank an alle Unterstützer.

Das Release der Version 1.4.0 findet ihr hier auf meinem Server (für DSM6 & DSM7): https://geimist.eu/synOCR/

DOWNLOAD:

➜ SPK DSM6

➜ SPK DSM7

1.4.0 [2023-07-04]
BUGFIXE:
- [SHELL] Wenn der Pfad zur Logdatei eine Raute enthielt, schlug die Datumssuche über Python fehl
- [SHELL] Umbenennungsparameter, die als Tag-Namensbestandteile in YAML-Regeln verwendet wurden, wurden nicht als Metadaten geschrieben
- [SHELL] Vermeidung von leeren Umbenennungssyntaxen
- [SHELL] Fehler beim Parsen von GUI-definierten Regeln
- [GUI] Wenn der Log-Level auf 0 gesetzt war, wurde das Log bei einem manuellen Lauf fälschlicherweise in der GUI angezeigt
- [GUI] Syntaxfehler behoben, der einen Navigationsfehler in der GUI verursachte
- [SHELL] wenn zwei Trennseiten aufeinander folgen, führte dies zu einer leeren PDF-Datei (danke @DeeKay1)
- [GUI] synOCR startete in DSM7.2 nur noch in einem neuen Fenster (iFrame Unterstützung - danke @Tommes)
VERBESSERUNG:
- [SHELL] Trennseiten: Wechsel von pypdf zu pikepdf, da pypdf das PDF/A-Attribut zerstört (danke @Gthorsten)
- [SHELL] write metadata: Wechsel von pypdf zu pikepdf, da pypdf das PDF/A-Attribut bricht (thx @Gthorsten)
- [SHELL] Metadaten zusätzlich als XMP-Daten schreiben (thx @Gthorsten)
- [SHELL] Python-Umgebung wird jetzt während eines Paket-Updates beibehalten
- [GUI] Bootstrap-Framework auf 5.3.0 aktualisiert (danke @Tommes)
- GUI] Bootstrap JavaScript auf die Version 5.3.0 bringen (danke @Tommes)
- GUI] jQuery auf 3.7.0 erhöht (danke @Tommes)
- [GUI] Kleinere Code-Optimierungen in synOCR.js vorgenommen (danke @Tommes)
- GUI] Zusätzlich zu lokalen DSM-Benutzern kann die App nun auch von Domain- und LDAP-Benutzern verwendet werden (thx @Tommes)
- [SHELL] Verbesserung der DSM-Benachrichtigung
- [SHELL] der meiste Shell-Code wurde überprüft und angepasst, um Shellcheck zu bestehen
- [GUI] Wenn die Überwachung über den Task Scheduler von root aus gestartet wird, informiert die GUI nun darüber
- [SHELL] falsches Trennseitenverhalten bei aufeinanderfolgenden Dokumenten mit Trennseiten
- [GUI] Profil wechselt automatisch, wenn ein anderer Name in der Listbox ausgewählt wird (danke @HolerZ)
- [GUI] die Warnung für ein ungültiges Quellverzeichnis enthält jetzt auch den Namen des betroffenen Profils
- [SHELL] find_dates.py auf Version 1.0.4 aktualisiert (danke @Gthorsten)
- [SHELL] es werden jetzt keine temporären Daten mehr im Zielordner gespeichert
- verbesserte Protokollierung, wenn die Überwachung nicht gestartet werden kann, weil ein Quellordner ungültig ist
IMPLEMENTIERUNGEN:
-

Aufnahme der APPRISE-Bibliothek zur Unterstützung vieler Benachrichtigungsdienste (native PushBullet-Unterstützung wurde entfernt)

apprise_call: >apprise service<

apprise_attachment: >true/false<

notify_lang: >DSM lang code<

kann zusätzlich in jeder YAML-Regel definiert und überschrieben werden
- mit dem Wert postscript: in YAML können Post-Script-Befehle definiert werden (Befehl oder Pfad zum Skript)
- [YAML] multilineregex: true kann bei Unterregel und bei tagname_RegEx gesetzt werden
damit wird der Parameter -z für grep gesetzt, um Ergebnisse über mehrere Zeilen zu finden
- [GUI] Unterstützung für folgende maschinell übersetzte Sprachen (von DeepL)
- Koreanisch
- Norwegisch

plang.pl · 04. Juli 2023

Danke für das Paket und das Update!
Genau wie bei LogAnalysis kann ich bestätigen, dass das Paket sich in der neuesten Version als Domain-User starten lässt

Yippie · 04. Juli 2023

Danke, danke, danke fürs neue Release!

Foggy · 04. Juli 2023

Hey,
der Changelog liest sich super. Ich bekomme mit DSM 6.2.4-25556 Update 7 beim versuch der Installation leider die Fehlermeldung "Dieses Paket wird auf der Plattform von DiskStation nicht unterstützt oder ist nicht kompatibel mit der aktuellen DSM-Version".
Habt ihr eine Ahnung voran das liegen könnte? Gibt es ggf. neue Abhängigkeiten von anderen Paketen?
Gruß!

geimist · 04. Juli 2023

Das Paket für DSM6 hast du?
Muss ich später mal gucken …

Foggy · 04. Juli 2023

Ja synOCR_DSM6_v1.4.0.spk

geimist · 05. Juli 2023

@Foggy bitte nochmal probieren. Ich hatte noch einen Fehler im Buildscript, weshalb der Wert "description" im Paket fehlte.

Foggy · 05. Juli 2023

@geimist Danke. Die Installation funktioniert jetzt. Allerdings bekomme ich auf der Konfigurationsseite den Fehler

Code:

Ergebnis von DB-Update:
➜ ERROR: the DB column could not be renamed (PBTOKEN to apprise_call)

Sämtliche Einstellungen sind leer und Änderungen an den Einstellungen lassen sich nicht speichern.
*Edit* synOCR startet nicht über die Aufgabenplanung wie beschrieben, nur ein manueller Start funktioniert aktuell.

Ich hab ein Backup der Konfigurationsdatenbank heruntergeladen, wo kann ich das denn wiederherstellen?

geimist · 05. Juli 2023

Interessant …
Warum fällt sowas immer erst in einem Release auf

Könntest du mir mal bitte die aktuelle Datenbank hochladen?

Eine manuelle Wiederherstellung der Datenbank muss über den Aufgabenplaner oder dem Terminal erfolgen (der Quellpfad ist anzupassen):
cp -f "/volume1/…/synOCR.sqlite" /usr/syno/synoman/webman/3rdparty/synOCR/etc/synOCR.sqlite

Einfacher funktioniert ein Backup und Wiederherstellung mit HyperBackup.

eggstwb · 06. Juli 2023

Zuerst mal vielen Dank fürs Bereitstellen von synOCR! Ich verwende es für einen Verein und neu ev. auch für die Firma.

Zu einer Frage habe ich bis jetzt keine Antwort gefunden: Ich gebe meinen Dokumenten (z.B. Offerten) einen QR-Code mit, der einen Dateipfad und -namen enthält (z.B.: \Archiv\Kunde123\2023\Offerte456.pdf). Aktuell verarbeite ich diese PDFs mit dem Tool BardecodeFiler auf einem Windows-Server, der bald abgeschaltet wird. Nun steige ich auf Synology um und suche nach einer Möglichkeit, diese Funktionalität abzubilden.

Deshalb meine Frage:
Kann SynOCR einen QR-Code lesen und den Inhalt verwenden, um das Zielverzeichnis und den Dateinamen zu definieren? Wenn Ja, wie?

geimist · 06. Juli 2023

Sorry, so ein Feature ist derzeit nicht implementiert. Das müsste man in Verbindung mit einer YAML-Regel definieren.

Wahrscheinlich ließe sich das mit Python umsetzen. Gibt es da einen einheitlichen Standard, den du für die QR-Codes verwendest? Man muss es ja einheitlich parsen können.

eggstwb · 06. Juli 2023

geimist schrieb:
Wahrscheinlich ließe sich das mit Python umsetzen. Gibt es da einen einheitlichen Standard, den du für die QR-Codes verwendest? Man muss es ja einheitlich parsen können.

Danke für die rasche Rückmeldung. Ich verwende einen Standard-QR-Code Version 15 (https://www.qrcode.com/en/about/version.html). Der Inhalt ist aber weder standardisiert noch strukturiert. Das könnte ich aber natürlich ändern. Aktuell enthält der Code einfach das Verzeichnis und den Dateinamen (z.B. "\Archiv\Kunde123\2023\Offerte456.pdf"). Beantwortet das deine Frage?

geimist · 06. Juli 2023

Danke. Wenn überhaupt, wird es mit einer Umsetzung aber nicht heute oder morgen. Spontan würde ich dann auch ein strukturiertes Format mit einem Key:Value Paar(e) bevorzugen, damit User auch andere Ideen damit umsetzen können. Aber wie gesagt: ich kann nichts versprechen. Es gibt ja auch noch andere Wünsche

Gthorsten · 06. Juli 2023

geimist schrieb:
Sorry, so ein Feature ist derzeit nicht implementiert. Das müsste man in Verbindung mit einer YAML-Regel definieren.

Wahrscheinlich ließe sich das mit Python umsetzen. Gibt es da einen einheitlichen Standard, den du für die QR-Codes verwendest? Man muss es ja einheitlich parsen können.

Ich habe mir sowas mal in einem anderen Projekt experimente gemacht. Das geht schon mit python. Packen wir mal auf die Liste. Aber es gibt ja noch Dinge die vorher dran sind

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

DOWNLOAD:​

➜ SPK DSM6​

➜ SPK DSM7​

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat

DOWNLOAD:

➜ SPK DSM6

➜ SPK DSM7