synOCR synOCR - GUI für OCRmyPDF

guidovg

Benutzer
Mitglied seit
26. Nov 2011
Beiträge
142
Punkte für Reaktionen
43
Punkte
34
Na klar, Du findest es bei GitHub unter diesem Link.

Die Konfiguration läuft allerdings auch über eine YAML-Datei, jedoch mit ziemlich umfangreichen Möglichkeiten und Filtern. Der Entwickler ist auch sehr schnell mit Antworten und Support.
 

CSchmitt

Benutzer
Mitglied seit
29. Mrz 2018
Beiträge
40
Punkte für Reaktionen
8
Punkte
8
Hallo zusammen,

ich habe vor langer Zeit schon mal angefangen eine UI zu bauen um das yaml file zu verwalten.
Mein aktueller Stand sieht wie folgt aus:

synOCREditor.png

  • Man kann seine Ordnerstruktur anlegen, (für diejenigen die es trotzdem geordnet haben wollen)
  • Tags unterhalb von Ordnern anlegen
  • Bedingungen unterhalb eines Tags anlegen

Aktuell gibt es noch ein Problem mit dem Baum an sich, was das ganze noch nicht für alle verwendbar macht.
Eig. wollte ich das nur für mich machen, und somit auch in einer Web Technologie in der ich noch blutiger Anfänger bin um zu üben.

Da ich aber gesehen habe (zumindest glaube ich das) das es auch andere User gibt die sich über eine GUI freuen würden, werde ich wenn die Probleme behoben sind (rücksprache mit dem componenten entwickler läuft) das ganze als Dockercontainer zur Verfügung stellen und Ihr könnt es auch dann parallel zu synOCR installieren.

Kleiner Spoiler vorab: Dieses Jahr wird das nichts mehr ;)

Sollte @geimist irgendwann mal neue Features wie z.B. von @loswochos angesprochenen "Klammerungen" einbauen, dann werde ich selbstverständlich versuchen auch den Editor dahingehend anzupassen.

Gruß Chris
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234
Da ich aber gesehen habe (zumindest glaube ich das) das es auch andere User gibt die sich über eine GUI freuen würden, werde ich wenn die Probleme behoben sind (rücksprache mit dem componenten entwickler läuft) das ganze als Dockercontainer zur Verfügung stellen und Ihr könnt es auch dann parallel zu synOCR installieren.
Das ist eine ganz feine Sache (y)
Am genialsten fände ich es ja, wenn man das direkt in der GUI nutzen könnte. Aber selbst mit einem Dockercontainer wäre das ein großer Schritt nach vorn.

synOCR adressiert ja gerade die User, die eine GUI bevorzugen. Daher denke ich, dass es sicherlich viele Interessenten dafür gibt, die sich derzeit mit dem YAML-File überfordert fühlen.

Vielen Dank
 
  • Like
Reaktionen: peterhoffmann

CSchmitt

Benutzer
Mitglied seit
29. Mrz 2018
Beiträge
40
Punkte für Reaktionen
8
Punkte
8
@geimist Danke für die Blumen.
Ja ich bin kein Webentwickler und hab davon keine Ahnung. Mein GUI ist in Blazor heißt ein wenig HTML mit viel C#. Daher auch der eigene Container da ein Webserver lokal läuft mit der GUI.

Evtl können wir uns ja mal kurzschließen und ggf. auch was Entwickeln was beides zusammenfasst.

Ich kenne die Restriktionen von dem Synology Paket nicht, aber evtl kann man da ja auch einfach eine andere Seite anzeigen.
 

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
ist das Open Source? Haben wollen :)
 
Zuletzt bearbeitet von einem Moderator:

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
Na klar, Du findest es bei GitHub unter diesem Link.

Die Konfiguration läuft allerdings auch über eine YAML-Datei, jedoch mit ziemlich umfangreichen Möglichkeiten und Filtern. Der Entwickler ist auch sehr schnell mit Antworten und Support.
Stephan, das ist der Entwickler den ich Dir bzgl. YAML Datei nahegelegt hatte....
 

CSchmitt

Benutzer
Mitglied seit
29. Mrz 2018
Beiträge
40
Punkte für Reaktionen
8
Punkte
8
@mamema Aktuell nicht. Da würde ich mich schämen sowas public zu machen, da Kraut und Rüben.

Aber mal schauen wie es in Zukunft wird.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234

majordomus

Benutzer
Mitglied seit
01. Jan 2021
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Liebe(r) Geimist,


SynOCR ist ein wundervolles Programm, erstmal dafür vielen Dank!

Leider ist es so, dass es mit der aktuellen Beta von DSM 7.0 nicht kompatibel ist. Nach dem Update steht beim SynOCR Paket "Reparatur erforderlich", danach: "SynOCR kann nicht ausgeführt werden, da es mit Root-Rechten ausgeführt wird. Pakete mit Root-Rechten können (...) die Sicherheit des Systems gefährden.

Da ja bald DSM 7 für alle kommt: Könntest Du das Paket anpassen ?

Lieben Dank und ein schönes 2021!
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
  • Like
Reaktionen: geimist

tiaa

Benutzer
Mitglied seit
28. Mai 2013
Beiträge
7
Punkte für Reaktionen
3
Punkte
53
Hallo zusammen
Statt auf verschiedene Tags im Dateinamen setze ich voll und ganz auf die Volltextsuche von Onedrive. Über meine aktuell 1'800 gescannten pdf files funktioniert das auch wie gewünscht! Einzig mit dem Dateinamen bin ich noch am kämpfen... Der Original-Dateinamen möchte ich gerne weglassen da diese teilweise eher verwirrend als nützlich sind. Daher suche ich einen fortlaufenden Zähler (Counter) oder einen Zeitstempel wie "2021-01-05_14-52-14".

Gibt es da irgendeine Möglichkeit?

Grüsse aus der Schweiz
tiaa

PS: Danke dem Entwickler für dieses "Wundertool" :)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234
oder einen Zeitstempel wie "2021-01-05_14-52-14".
Halte mal mit der Maus auf das Info-i bei dem Umbenennungsfeld in der GUI. Du kannst als Datum auch den aktuellen Zeitpunkt auswählen
§ynow-§mnow-§dnow (allerdings derzeit nicht mit Stunde, Minute und Sekunde - das steht noch auf meiner Liste).
 

tiaa

Benutzer
Mitglied seit
28. Mai 2013
Beiträge
7
Punkte für Reaktionen
3
Punkte
53
Danke für deine kurzfristige Antwort! Dies habe ich selbstverständlich bereits gemacht, sowie auch irgendwelche §hrnow oder §hournow usw. ausprobiert. ;)

Gäbe es eine Möglichkeit die Aufgaben-Nummer die man in der Übersicht sieht zu verwenden?

Gruss tiaa
 
Zuletzt bearbeitet von einem Moderator:
  • Like
Reaktionen: geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234
Ich schreibe es auf meine Liste.

Allerdings wird ja nicht je Profil gezählt, sondern global. Das könnte manchen stören. Aber vielleicht besser als nichts.
 
Zuletzt bearbeitet von einem Moderator:

tiaa

Benutzer
Mitglied seit
28. Mai 2013
Beiträge
7
Punkte für Reaktionen
3
Punkte
53
Danke schon mal! :) Von meiner Seite würde ich einen "einfachen" nicht-sprechenden, fortlaufenden Zähler bevorzugen. Oder als Alternative den Timestamp "Y-M-D_h-m-s" oder etwas in dieser Art.

Gruss tiaa
 
Zuletzt bearbeitet von einem Moderator:

tiaa

Benutzer
Mitglied seit
28. Mai 2013
Beiträge
7
Punkte für Reaktionen
3
Punkte
53
Hallo zusammen
Als temporäre Lösung lasse ich nun vor dem Synocr-Task ein Skript laufen. Dieses benennt die Files entsprechend um und innerhalb Synocr verwende ich dann den Originaldateinamen.

z.B.
2020-09-16 - 21-49-20 - 874263.pdf


cd /volume1/scan/_input
for f in *; do mv "$f" "${f,,*}"; done
for file in *.pdf
do
dt=$(date -r "$file" +"%Y-%m-%d - %H-%M-%S")
filesize=$(stat -c%s "$file")
mv "/volume1/scan/_input/$file" "/volume1/scan/_input_renamed/${dt}"" - ""${filesize}.pdf"
done


Gruss tiaa
 
  • Like
Reaktionen: peterhoffmann

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234
Ich bin gerade dabei, die zusätzlichen Parameter einzubauen.

Den Zähler, falls gewünscht, kannst du so auslesen: get_key_value /usr/syno/synoman/webman/3rdparty/synOCR/etc/counter ocrcount
 
  • Like
Reaktionen: tiaa

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.515
Punkte für Reaktionen
1.351
Punkte
234
Du kannst gerne mal den aktuellen Build testen (https://geimist.eu/synOCR). Bitte achte darauf, dass du die master-Version nimmst. Die DSM7-dev-Version wird nicht laufen.

Folgende zusätzliche Parameter stehen zur Verfügung:
§hhsource §mmsource §sssource §hhnow §mmnow §ssnow §pagecounttotal §filecounttotal §pagecountprofile §filecountprofile

(Sie sind noch nicht dokumentiert - erscheinen also noch nicht hinter dem Info-i).
 
Zuletzt bearbeitet:
  • Like
Reaktionen: tiaa

tiaa

Benutzer
Mitglied seit
28. Mai 2013
Beiträge
7
Punkte für Reaktionen
3
Punkte
53
Hallo Stephan
Ich habe dein Build getestet. Es läuft wie gewünscht! Mein Skript konnte ich bereits wieder deaktivieren. Aktuell werden 1'870 Files abgearbeitet... :)

Die Ausgabe habe ich nun wie folgt angepasst.

20200306-212538-2159.pdf
(Datum-Zeit-FileCountTotal)

Vielen Dank für deine extrem schnelle Reaktionszeit!

Gruss tiaa
 
  • Love
Reaktionen: geimist

tiaa

Benutzer
Mitglied seit
28. Mai 2013
Beiträge
7
Punkte für Reaktionen
3
Punkte
53
Hallo Stephan
Wie bereits geschrieben verwende ich keine via OCR gefundenen Datei- und Ordner-Tags für meine Dateiablage. Ich finde das gewünschte Dokument über die Volltextsuche von OneDrive innerhalb weniger Sekunden. Nachteilig ist einzig das der Ablageordner mit der Zeit eine relativ grosse Anzahl Dateien beinhaltet.

Wäre es möglich das Zielverzeichnis zum Beispiel anhand des jeweiligen Datei-Änderungsdatums zu steuern?


Als Beispiel ein Dokument mit dem Änderungsdatum vom 24. April 2020

Zielverzeichnis:
"Dokumente"

Unterverzeichnis1 (§ysource)
"2020"

Unterverzeichnis2 (§ysource-§msource)
"2020-04"

Dies ergäbe dann folgender Ablageort des Dokuments
...\Dokumente\2020\2020-04\20200424-191455-2188.pdf


Gruss tiaa
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat