synOCR synOCR - GUI für OCRmyPDF

hamitaga · 08. Aug 2021

Ne, normal war es natürlich nicht. Vor allem, da ich nichts verändert hatte.
Entweder greife ich direkt über LAN auf die DSM zu oder VPN.
Ich habe deine Version installiert, aber das Problem bleibt das selbe.
Im Paketzentrum wird das richtige Icon angezeigt. Beim Öffnen und der Programmübersicht jedoch nicht.

geimist · 08. Aug 2021

OK, liegt vielleicht am Browsercache.

Welche DS hast du?
(gleich mal eine Gelegenheit, dass in die Signatur zu schreiben

)

hamitaga · 08. Aug 2021

Ich habe das „Problem“ teilweise lösen können.
Wenn ich mich am iPad anmelde, kann ich SynOCR ganz normal öffnen.
Keine Ahnung, was da am iPhone für Probleme bestehen.
Ach, nutze die 220+

geimist · 08. Aug 2021

Vielleicht doch mal den Browsercache löschen?

hamitaga · 08. Aug 2021

Auch das löst das Problem am iPhone nicht. Aber wichtig ist mir, dass es grundsätzlich wieder funktioniert. Ist schon ne ordentliche Arbeitserleichterung. Vielen Dank dafür!

andipc · 08. Aug 2021

Hallo,
habe mir erst vor 2 Tagen synOCR angetan. Bis jetzt manuelles OCR mit Abbyy Transformer.
Der Automatismus an synOCR hat mich interessiert und gefällt mir sehr gut.
Die ersten Tests sehen gut aus. Jetzt wollte ich sehen was synOCR so leisten kann auf meiner alten Hardware.
Habe mit einem alten MFC8370 ein in Word geschriebenes Dokument gescannt.
Den einzigen Parameter den ich in synOCR verändert habe: -srd -l deu zu -frd -l deu (damit er einen reocr durchführt falls schon was im Textlayer steht (mit dem geänderten Parameter ein durchlaufen lassen - hier habe ich noch keinen Vergleich zu der Originaleinstellung)
4 mal den gleichen Text in alle Himmelsrichtungen geschrieben, um zu sehen wie sich das Teil schlägt.
Im Gegenzug habe ich die PDF ebenfalls mir rescan durch Abbyy Transformer gejagt (die Datei wird mal 4x so groß).
Mich würde interessieren wie sich die Originaldatei bei euch schlägt (SynOCR_Testscan)
Als Vergleich habe ich mal das Resultat von Abbyy Transformer noch dazu gehängt (SynOCR_Testcan-Abbyy-reOCR).
Auf einer älteren 412+ mit aktueller 6.x

Es wäre mal interessant was bei euch synOCR aus der Datei SynOCR_Testscan.pdf an Leserlichem so rausbekommt.
synOCR: 2 Treffer (egal welches Wort) horizontal und von rechts lesend.
Abbyy: 3 Treffer, hier kommt noch von links lesend dazu.
Keiner schaffte Überkopf und 45° gedreht.

Hoffe ich bin nicht komplett OT.

Gruß Andreas

cm_ · 08. Aug 2021

Hallo zusammen,

ich bin vor ein paar Tagen auf synOCR gestoßen - habe es heute ausprobiert und bin begeistert. Respekt und vielen Dank dafür!
Ich habe jetzt schon eine komplette Strecke vom Scanner auf NAS mit automatischer Verarbeitung durch synOCR etabliert.

Zum renaming bzw. zu den Tags habe ich noch Fragen:
- Gibt es eine Doku bzgl. der Regeln und wie die externe Datei aussehen muss?
- Wenn mehrere Tags zutreffen, werden ja hard links gesetzt. Daraus ergeben sich m.E. zwei Nachteile gegenüber Verknüpfungen. a) Im Explorer sieht es so aus als belegt jedes Dokument auch den vollen Speicher und b) finde ich die Dokumente in der Suche dann auch immer mehrfach.
Wie geht ihr damit um? Oder gibt es die Möglichkeit statt hard links Verknüpfungen erstellen zu lassen?

Viele Grüße
Christian

geimist · 08. Aug 2021

Herzlich willkommen hier im Forum, Christian

cm_ schrieb:
- Gibt es eine Doku bzgl. der Regeln und wie die externe Datei aussehen muss?

Wenn du dir über den Button in der GUI die Regeldatei erstellen lässt, wird eigentlich schon alles darin erklärt (am besten vorher ein paar Beispieltags in der GUI eintragen - die werden mit konvertiert).

Detailfragen kannst du gern hier stellen.

cm_ schrieb:
Daraus ergeben sich m.E. zwei Nachteile gegenüber Verknüpfungen

Bei Softlinks (Verknüpfungen wie du sie nennst) überwiegen aus meiner Sicht die Nachteile:

sie lassen sich nicht über die Dateifreigabe & Filestation wie Dateien behandeln (meine ich …)
du darfst nicht versehentlich das Original löschen

Wie relevant ist der Speicherplatzmehrverbrauch in der Praxis?:

für eine Datei müssen gleichzeitig mehrere Kategorien, bzw. Zielordner greifen, die auch noch auf unterschiedlichen Volumes liegen
um welche Größenordnungen geht es bei PDFs?

Ich sehe hier keine praxistaugliche Alternative, lass mich aber auch gern eines Besseren belehren.

cm_ · 08. Aug 2021

Hallo Stephan,

vielen Dank für die schnelle Antwort.
Den Button hatte ich übersehen

das beantwortet für den Moment alles.

Ok, dann versuche ich auch nochmal meine Tags so zu schneiden, dass es möglichst wenig Überschneidungen gibt.

Viele Grüße
Christian

synDS918 · 09. Aug 2021

Guten Morgen,

begeisteter synOCR Nutzer, der nun seine DS918+ auf DSM V7.0 (von DSM V6) geupdatet hat.
Leider hat dies synOCR nicht so gut vertragen.
Deshalb musste das Paket synOCR über das Paketzentrum deinstallieren und (nach Neustart) erneut manuell über cphub.net ( Version 1.1.902 ) installieren (jbarlow83/ocrmypdf: latest wird verwendet)
Hiernach habe ich - wie unter Hilfe -> Schnellstart beschrieben - erneut eine neue Aufgabe für /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh im Aufgabenplaner erstellt.
Sicherheitshalber habe ich die Synology danach komplett neugestartet und einige Probe-PDF Dateien am entsprechenden Ort zum OCRen mit SynOCR abgelegt.
Die automatische Verarbeitung von Originaldateien zu OCR-verarbeiteten Dateien funktioniert tadellos.

Leider bekomme ich aber die folgende Meldung unter > Übersicht < nicht weg (siehe Screenshot)
Ist das nur ein Anzeigefehler?

Danke!
Gruß

geimist · 09. Aug 2021

Eigentlich hätte ein einfaches installieren der Beta ausreichen sollen …

Deinen aktuellen Fehler hatten wir jetzt schon einmal. Probiere mal bitte die Version für DSM7 von meinem Server.

cm_ · 09. Aug 2021

Hallo zusammen,

ich habe heute Nacht einen "Massenlauf" über meine ca. 600 Dokumente gemacht (mit Option force) - hat im Großen und Ganzen gut funktioniert.

Zwei Dinge sind mir aufgefallen:
1. Ich bekomme diverse Ordner a la "Auto_ADMIN_Aug-09-024419-2021_Conflict" erstellt - in jedem liegt ein File. "Auto" ist eine meiner Kategorien - ich weiß nicht, ob das hier gemeint ist. Der Unterordner "auto" (klein geschrieben) wurde aber erstellt. Mir ist nicht klar, wo der conflict ist - aus dem log konnte ich nichts auffälliges herauslesen.

2. Einige (wenige) Files bleiben im Input-Ordner, obowhl sie verarbeitet und im Output abgelegt werden... auch hier sehe ich im log nichts auffälliges.

Könnt ihr mir bzgl. Ursachen weiterhelfen?

Viele Grüße
Christian

geimist · 09. Aug 2021

cm_ schrieb:
Ich bekomme diverse Ordner a la "Auto_ADMIN_Aug-09-024419-2021_Conflict" erstellt

Das klingt für mich nach einem Sync-Konflikt mit Drive. Der Fehler stammt nicht unmittelbar von synOCR.

cm_ schrieb:
Einige (wenige) Files bleiben im Input-Ordner, obowhl sie verarbeitet und im Output abgelegt werden

Ohne Log kann auch ich nichts dazu sagen. Was steht im Log, wenn du synOCR noch einmal startest?

Tom1000 · 11. Aug 2021

Was noch 'ne schicke Funktion wäre, ist, wenn mehrere Dateien, die zu einem Scan gehören, von SynOCR zusammengefasst werden können.
Selbstverständlich müsste man die betreffenden Dateien manuell markieren und die Reihenfolge festlegen. Das automatisch zu machen wäre etwas zuviel verlangt...

Beispiel: Mein Scanner im Drucker (Brother 3770) macht bei ca. 30 Seiten Schluss, dann ist der (nicht erweiterbare) Speicher voll. Also scanne ich in Häppchen und schustere das mit dem Adobe Acrobat (gaaanz alte Version) zusammen.

Wäre superklasse, wenn das über SynOCR ginge. Aber ich befürchte, da hat Stefan keine Zeit zu. (Ist ja auch ein "first world problem...)

Wäre nur "nice to have"...

geimist · 11. Aug 2021

Das steht schon auf der Liste (so rein theoretisch …

).

Wahrscheinlich ließe sich das mit den in OCRmyPDF integrierten Tools relativ leicht realisieren. Die automatische Umsetzung in der Praxis finde ich dann schon schwieriger:

Sollen immer alle Dokumente im Eingangsordner zusammengefasst werden?
Soll man sich generell über einen Schalter in der GUI für eine Variante entscheiden müssen?
Soll das nur bei einer bestimmten Benennung greifen?

Tom1000 · 11. Aug 2021

Hi Christian,

es könnte daran liegen, dass die Files geschützt sind.

Das Problem hatte ich auch und Stefan hat mich drauf aufmerksam gemacht. Das kann man aber im Acrobat Reader unter Einstellungen oder Eigenschaften sehen...

LG Thomas

cm_ schrieb:
2. Einige (wenige) Files bleiben im Input-Ordner, obowhl sie verarbeitet und im Output abgelegt werden... auch hier sehe ich im log nichts auffälliges.

Könnt ihr mir bzgl. Ursachen weiterhelfen?

Viele Grüße
Christian

geimist · 11. Aug 2021

Das ist ja auch oft der Fall. Aber weil er schrieb:

cm_ schrieb:
… obowhl sie verarbeitet und im Output abgelegt werden.

hatte ich das gedanklich ausgeschlossen.

Tom1000 · 11. Aug 2021

Oh, das hatte ich überlesen... Dann sollte das tatsächlich nicht der Grund sein.

FoxageX · 12. Aug 2021

Hallo zusammen,

mein Anliegen betrifft die Darstellung des Datums.

Aktuell wird das Datumsformat wie folgt ausgegeben: JJJJ-MM-TT. Gibt es eine Möglichkeit die Darstellung auf die persönlichen Bedürfnisse anzupassen? Wie kann z. B. das Format JJMMTT oder JJJJMMTT ausgegeben werden?

Freue mich über Ideen.

geimist · 12. Aug 2021

Das änderst du mit der Renamesyntax in der GUI. Standard ist §yocr-§mocr-§docr_§tag_§tit Du müsstest halt einfach die Bindestriche weglassen. Allerdings arbeitet synOCR derzeit nur mit einem vierstelligen Jahr.