synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.377
Punkte
234
Favorisiert wird eine Möglichkeit, mit der das abweichende Datumsformat anhand der gefundenen Tags ermöglicht würde. Ich nehme mal mit, dass dies derzeit mit synOCR nicht möglich ist. Ich würde mich jedoch freuen, wenn dies zukünftig im Wege der Weiterentwicklung von synOCR möglich sein könnte.
Ich werde es mir auf jeden Fall mit aufschreiben.
Ich muss mir da erstmal Gedanken machen, wie ich das umsetzen kann.

Wenn ich es richtig verstanden habe, ist es dein Wunsch, die Umbenennungssyntax zu ändern, sobald ein gewisser Tag gefunden wird. Richtig?

Beispiel:
Aktuell wird der Standard genutzt §y-§m-§d_§tag_§tit. Würde jetzt z.B. der Tag Rechnung gefunden werden, soll die Umbenennungssyntax so lauten (weil in der Regel so angegeben): §y-§m_§tag?
 

FoxageX

Benutzer
Mitglied seit
09. Jul 2021
Beiträge
20
Punkte für Reaktionen
2
Punkte
3
Wenn ich es richtig verstanden habe, ist es dein Wunsch, die Umbenennungssyntax zu ändern, sobald ein gewisser Tag gefunden wird. Richtig?

Beispiel:
Aktuell wird der Standard genutzt §y-§m-§d_§tag_§tit. Würde jetzt z.B. der Tag Rechnung gefunden werden, soll die Umbenennungssyntax so lauten (weil in der Regel so angegeben): §y-§m_§tag?
Ganz genau, dies wäre die gewünschte Lösung. Wenn zum Beispiel im Dokument das Datum 06.02.2022 UND der Tag "BEISPEIL" gefunden wird, dann bennene die Datei 2022_02_#Beispiel.pdf.

Die Möglichkeit zur Nutzung von §ysource2 / $ysource4 (also Jahr der Quelldatei 2- oder 4-stellig) sollten dabei erhalten bleiben.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.377
Punkte
234
Wenn es dir um ein festes Datum geht (welches dir im voraus bekannt ist), dann sollte das auch jetzt möglich sein.
Infos gibt es auch HIER

Im Beispiel wurde ein regulärer Ausdruck für die Suche des Datums verwendet, damit auch alternative Schreibweisen erkannt werden (RegEx habe ich jetzt nicht getestet - das sollte man noch tun).

YAML:
rule_01:
    tagname: "2022_02_#Beispiel"
    condition: all
    subrules:
    - searchstring: BEISPEIL
    - searchstring: \b0?6[\.]0?2[\.](2022|22)\b
      isRegEx:true
 
  • Like
Reaktionen: Wiesel6

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Hallo zusammen,
entschuldigt vorab, wenn die Frage hier nicht rein gehört.

Ich habe bei einem Kollegen Werbung für ocrMyPdf gemacht und es in höchsten
tönen gelobt, da ich ja sehr zufrieden bin.

Mein Kollege ist aber ehr so ein GUI-Typ. Also das mit den Regeln in den YAML Dateien mag er nicht so.

Er hat dann was ähnliches ergoogelt.
Ich habe mir das dann angesehen ( mache hier bewusst keine Werbung).
Nun meine Frage: Bei der Lösung läuft der Docker Container permanent.
Ist so was ( von Stromverbrauch mal abgesehen) nicht schlechter für die Synology?
Oder muss sie sowas abkönnen ( 24/7 ohne Standby).
Meine geht nämlich regelmäßig in der Standby.
Der Job läuft nur alle 30 min.
Danke für ein paar Antworten.
 

tuxbox78

Benutzer
Mitglied seit
06. Mai 2017
Beiträge
8
Punkte für Reaktionen
2
Punkte
3
Hallo zusammen,
Hätte bitte auch eine Frage und Entschuldigung falls schon irgendwo beantwortet, aber habe bisher leider nichts dazu selbst gefunden...

Versuche verzweifelt das synOCR Paket zu installieren.. eigentlich wie beschrieben, aber bekomme nach dem herunterladen immer für Fehlermeldung .. ungültiges Dateiformat.
Kennt das jemand?
Was mache ich falsch?

Vielen Dank schonmal. Gruß,
Frank
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.377
Punkte
234
Leider kann ich nicht herauslesen, wo du das SPK heruntergeladen hast, noch welches Modell und welche DSM-Version du nutzt.

(Downloadlink findest du in meiner Signatur.)
 

tuxbox78

Benutzer
Mitglied seit
06. Mai 2017
Beiträge
8
Punkte für Reaktionen
2
Punkte
3
Leider kann ich nicht herauslesen, wo du das SPK heruntergeladen hast, noch welches Modell und welche DSM-Version du nutzt.

(Downloadlink findest du in meiner Signatur.)
Habe das www.cphub.net repository eingebunden und über das Paketzentrum installiert. Das Paket hat er auch angezeigt und der Download Balken ging auf 100% und dann kam die Meldung über ungültiges Dateiformat.
Docker ist auch bereits installiert.

DSM Version: DSM 7.0.1-42218 Update 2
Modell: DS716+II
CPU: INTEL Celeron N3160 4 Kerne
RAM: 2 GB
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.377
Punkte
234
Bitte nehme DAS HIER - die aktuelle Version für DSM7 wird derzeit aufgrund eines Fehlers leider nicht über cphub ausgeliefert.
 

tuxbox78

Benutzer
Mitglied seit
06. Mai 2017
Beiträge
8
Punkte für Reaktionen
2
Punkte
3
Bitte nehme DAS HIER - die aktuelle Version für DSM7 wird derzeit aufgrund eines Fehlers leider nicht über cphub ausgeliefert.
Prima, vielen Dank schon mal. Installieren lässt es sich damit auf jeden Fall schon mal. Allerdings bekomme ich beim Ausführen (als root natürlich) einen Syntax Fehler vom synOCR-start Skript und in der DSM Oberfläche wird auch noch behauptet die Berechtigungen fehlen noch:

Start: Wed, 09 Feb 2022 11:49:36 GMT
Ende: Wed, 09 Feb 2022 11:50:21 GMT
Aktueller Status: 0 (Normal)
Standardausgabe/Fehler:
synOCR run at DSM7 or above
➜ check admin permissions: added user synOCR to group administrators ...
➜ check docker group and permissions: create group docker ...
Group Name: [docker]
Group Type: [AUTH_LOCAL]
Group ID: [65538]
Group Members:
Group Name: [docker]
Group Type: [AUTH_LOCAL]
Group ID: [65538]
Group Members:
0:[synOCR]
Error: near "now": syntax error
Ergebnis von DB-Update:

➜ the default profile was created
synOCR wurde gestartet ...
Bitte warten, bis die Dateien fertig abgearbeitet wurden.
! ! ! Quellverzeichnis oder Berechtigung in der Konfiguration prüfen ! ! !
Programmlauf wird beendet.
 

tuxbox78

Benutzer
Mitglied seit
06. Mai 2017
Beiträge
8
Punkte für Reaktionen
2
Punkte
3
Ok, habe es jetzt nochmal per ssh probiert.. und siehe da. Da hat es funktioniert ohne Syntax Fehler und synOCR hat jetzt auch grünen Haken für die Berechtigungen.
 
Zuletzt bearbeitet von einem Moderator:
  • Like
Reaktionen: geimist

tuxbox78

Benutzer
Mitglied seit
06. Mai 2017
Beiträge
8
Punkte für Reaktionen
2
Punkte
3
Über den Aufgabenplaner als Task bzw benutzerdefiniertes Skript mit Benutzer root und Rückmeldung per Mail.
 
Zuletzt bearbeitet von einem Moderator:
  • Like
Reaktionen: geimist

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Hallo zusammen,
entschuldigt vorab, wenn die Frage hier nicht rein gehört.

Ich habe bei einem Kollegen Werbung für ocrMyPdf gemacht und es in höchsten
tönen gelobt, da ich ja sehr zufrieden bin.

Mein Kollege ist aber ehr so ein GUI-Typ. Also das mit den Regeln in den YAML Dateien mag er nicht so.

Er hat dann was ähnliches ergoogelt.
Ich habe mir das dann angesehen ( mache hier bewusst keine Werbung).
Nun meine Frage: Bei der Lösung läuft der Docker Container permanent.
Ist so was ( von Stromverbrauch mal abgesehen) nicht schlechter für die Synology?
Oder muss sie sowas abkönnen ( 24/7 ohne Standby).
Meine geht nämlich regelmäßig in der Standby.
Der Job läuft nur alle 30 min.
Danke für ein paar Antworten.
Keine eine Meinung hierzu ?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.377
Punkte
234
Das wird man am besten beurteilen können, wenn man sich die Systemauslastung der anderen Lösung ansieht (z.T. ja auch in der Docker-GUI). Ich kann dir da leider nichts Verbindliches sagen 🤷‍♂️
 
  • Like
Reaktionen: Gthorsten

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Das sollst du ja auch nicht
Ich bleibe lieber bei deiner Lösung. Mir ging es nur allgemein darum ob es ein Problem ist wenn docker dauerhaft läuft, bzw damit auch die synology. Bzw ich wollte wissen ob hand damit schon erfahrungen gemacht hat
 

tuxbox78

Benutzer
Mitglied seit
06. Mai 2017
Beiträge
8
Punkte für Reaktionen
2
Punkte
3
Darf ich noch eine Frage stellen wo ich keine Antwort gefunden habe..?
Das im Hintergrund benutzte ocrmypdf kann ja nach dem was ich gelesen habe auch Images (zumindest jpg und PNG) verarbeiten und ein PDF erstellen. SynOCR scheint aber allein bei PDFs aktiv zu werden.
Leider produziert mein Scanner nur jpgs...
Kann man das auch um- bzw einstellen, dass auch jpgs verarbeitet werden ohne sie vorher manuell zu konvertieren?
Danke schon mal
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.377
Punkte
234
Das soll mal noch ganz solide mit reinkommen, um auch mehrere Bilder kombinieren zu können. Du könntest versuchen, die JPGs einfach nach PDF umzubenennen. Das funktioniert wohl bisweilen (das könntest du auch automatisieren, wenn es gut funktioniert). Bitte berichte mal …
 

tuxbox78

Benutzer
Mitglied seit
06. Mai 2017
Beiträge
8
Punkte für Reaktionen
2
Punkte
3
Ok, dh derzeit mit Bordmitteln nicht direkt machbar.
An was dachtest du da bei der Automatisierung? Ein zusätzliches Skript, dass vor dem synOCR-start Skript noch zusätzlichaufgerufen wird und die Dateien im Input Pfad umbenennt?
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.544
Punkte für Reaktionen
1.377
Punkte
234
Ja, das kann ja unabhängig von synOCR laufen. Du könntest es auch mit der Aufgabe von synOCR im Aufgabenplaner verbinden. Probiere es erstmal aus, ob es wie gewünscht funktioniert.
 
Zuletzt bearbeitet:


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat