synOCR synOCR - GUI für OCRmyPDF

moleribal

Benutzer
Mitglied seit
15. Jul 2021
Beiträge
6
Punkte für Reaktionen
2
Punkte
3
@geimist der Einzeiler per Aufgabenplaner funktioniert soweit gut. Besten Dank dafür!
Habe dem Canon-Support bzgl. der Art die PDF-Datei auf dem Netzlaufwerk zu schreiben geschrieben.
 
  • Like
Reaktionen: geimist

Chr!s

Benutzer
Mitglied seit
22. Dez 2021
Beiträge
46
Punkte für Reaktionen
25
Punkte
68
Hallo Zusammen und ein frohes und gesundes neues Jahr!
Ich habe nun in den letzten tagen viel Zeit mit synOCR verbracht und bin mit an einem Punkt nicht sicher ob ich die Funktion falsch verstanden habe...

in den Profileinstellungen lässt sich ja einstellen welches Datum verwendet werden soll, für mich sind beide Varianten (1. Treffer und jüngstes Datum in der Vergangenheit) relevant, je nach Dokument und natürlich spielt es auch eine gewisse Rolle zu welchem Zeitpunkt ich Dokumente aus der Vergangenheit digitalisiere. Ich habe Dokumente bei denen entweder die eine oder andere Option das richtige Datum liefert, meine Lösungsansatz war das über zwei Profile zu definieren, richtig hinbekommen habe ich es allerdings nicht oder mache viel eher etwas falsch?

Mein 1. Profil => Einstellung jüngster Treffer
Mein 2. Profil => 1. Treffer im Dokument
Beide mit gleichem Input-Ordner

Vom Ablauf ist es nun so dass das 2. Profil scheinbar gar nicht mehr abgearbeitet wird und das Dokument direkt entsprechend meiner OCR Rename-Syntax (§yocr4-§mocr-§docr§tag#§filecounttotal) benannt im Output Verzeichnis landet nur ohne Tags aus der YAML Datei, soweit auch logisch denn die passende Regel ist in der 2. YAML Datei die auch dem 2. Profil zugeordnet ist.
Deaktiviere ich nun das 1. Profil greift somit das 2. Profil und die Regeln werden auch richtig erkannt... Irgendwie stehe ich auf dem Schlauch oder würde es nur funktionieren wenn ich einen separaten Input-Ordner für jedes Profil habe?

Lässt sich die Option evtl. direkt über die YAML Datei zur entsprechenden Regel einstellen? Dann könnte man sich für diesen Fall ein weiteres Profil und ggf. Regeldatei sparen oder ist dies generell der falsche Ansatz?

Würde mich über Tipps, Erfahrungen oder Lösungsvorschläge freuen.

Grüße Chris
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
880
Punkte für Reaktionen
179
Punkte
63
Hallo Chris, das sollte problemlos gehen. Melde mich später hierzu. Bin unterwegs...
Habe ich das richtig verstanden, dass Du dann 2x das Datum im filenamen möchtest?

Karsten
 

Chr!s

Benutzer
Mitglied seit
22. Dez 2021
Beiträge
46
Punkte für Reaktionen
25
Punkte
68
Wow Danke schonmal für die schnelle Reaktion(y):)

Nein im Dateinamen möchte ich das Datum nicht 2x haben. Aber je nach Dokument führt der 1. Treffer zum richtigen Datum und bei anderen Dokumenten ist das jüngste Datum in der Vergangenheit das richtige Datum.
Da in synOCR unter Konfiguration über Profile beschrieben ist:

"...welche alle bei jedem Programmlauf abgearbeitet werden."

War meine Überlegung


FALL 1:
=> erster Durchlauf:
1. Profil, Einstellung "jüngste Datum..." => keine TAGs da keine Regel in der Datei definiert

=> nächster Durchlauf:
2. Profil, Einstellung "1. Treffer" => TAGs gefunden da in Regeldatei definiert

ERGEBNIS => Verschieben in Zielverzeichnis da TAGs und Regel aus 2. Profil erkannt wurde


FALL 2:
=> erster Durchlauf:
1. Profil, Einstellung "jüngste Datum..." => TAGs gefunden da in Regeldatei definiert

=> nächster Durchlauf:
2. Profil, Einstellung "1. Treffer" => keine TAGs da keine Regel in der Datei definiert

ERGEBNIS => Verschieben in Zielverzeichnis da TAGs und Regel aus 1. Profil erkannt wurde

FALL 3:
=> keines der beiden Profile / Regeln ist zutreffend

ERGEBNIS=>Verschieben in Standard outputverzeichnis => Dateiname entspricht der OCR Rename-Syntax wobei keine Tags vorhanden sind da keine Regel erkannt wurde. Das Datum im Dateiname würde theoretisch der Einstellung aus dem 1. Profil entsprechen, da das 1. Profil auch zuerst abgearbeitet wird.

Hoffe das war war verständlich und nachvollziehbar.

PS: zum Editor werde ich auch noch ein Feedback mitteilen

Grüße Chris
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
880
Punkte für Reaktionen
179
Punkte
63
Hi Chris,
das ist dann wirklich kompliziert.
Woher soll synOCR denn wissen ob nicht das jüngste Datum auch das Datum als erster Treffer ist?
Muss das mal kurz zusammenbauen. Kann ich mir gerade nicht recht vorstellen.

Karsten
 
  • Like
Reaktionen: Chr!s

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.342
Punkte
234
Ich sehe hier nur die Möglichkeit mit zwei unterschiedlichen Quellverzeichnissen oder du arbeitest mit einem (im synOCR-Profil definierten) Suchpräfix welches du auch deinem Scannerprofil zuweist. Die Auswahl, welches synOCR Profil dann angewandt werden soll, musst du aber aktuell manuell treffen.
 
  • Like
Reaktionen: Struppix und Chr!s

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
880
Punkte für Reaktionen
179
Punkte
63
Nein im Dateinamen möchte ich das Datum nicht 2x haben. Aber je nach Dokument führt der 1. Treffer zum richtigen Datum und bei anderen Dokumenten ist das jüngste Datum in der Vergangenheit das richtige Datum.
Da in synOCR unter Konfiguration über Profile beschrieben ist:

"...welche alle bei jedem Programmlauf abgearbeitet werden."

War meine Überlegung
Hallo Chris,

nun was soll ich sagen. Es geht, glaube ich habe es gefunden. Zugegeben, dass ist schon verrückt, aber was soll's. Um das so umzusetzen, muss man allerdings die Suche drehen, zuerst der erste Treffer, dann der Jüngste.

Nun hoffe ich nur, dass ich richtig verstanden habe was Du möchtest, denn:
Sind in der Konstellation zwei verschiedene Datumsangaben auf dem Dokument, nimmt er sich jetzt immer das jüngste von Seite 1, egal wo es steht.
Deine gewollte Variante geht nicht, da synOCR für den Fall, dass aus der ersten Suche bereits ein Datum gefunden wurde, dann ja nicht mehr gesucht werden soll, das Fallback greift und das sieht so aus:
fallback is used to prevent an empty file name: 2024-01-04_07-43

Nun deshalb ist es nur logisch das Prinzip zu drehen wie eingangs beschrieben.
Verstehen kann ich es immer noch nicht, wozu das Ganze gebraucht werden könnte.
Meines Erachtens erfüllt ja die Einstellung "jüngstes Datum" an sich schon all diese Kriterien.

Hier ein paar Bilder, der Code und die Profile zum Download.

YAML Datum 1
Code:
rule_1001:
    tagname: §yocr-§mocr-§docr
    targetfolder: /volume1/Scanner/_Datum_2/_INPUT
    subrules:
    - searchstring: .*
      source: filename
      isRegEx: true

YAML Datum 2
Code:
rule_1001:
    tagname: §yocr-§mocr-§docr
    targetfolder: /volume1/Scanner/_Datum_2/_INPUT
    subrules:
    - searchstring: .*
      source: filename
      isRegEx: true

Download

Gruß
Karsten

Datum_1.JPG

Datum_2.JPG
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
880
Punkte für Reaktionen
179
Punkte
63
Habe gerade gesehen, dass die YAML Datei Datum 2 oben die falsche war.
Hier die richtige. Ist auch im Download beinhaltet.

Code:
rule_1001:
    tagname: §yocr4-§mocr-§docr
    targetfolder:
    subrules:
    - searchstring: .*
      source: filename
      isRegEx: true
 

Chr!s

Benutzer
Mitglied seit
22. Dez 2021
Beiträge
46
Punkte für Reaktionen
25
Punkte
68
Vielen Dank! Muss noch ein Weilchen arbeiten aber melde mich heute Abend😊
 

Chr!s

Benutzer
Mitglied seit
22. Dez 2021
Beiträge
46
Punkte für Reaktionen
25
Punkte
68
Hallo Karsten,
danke nochmals für deine Hilfe und die bereitgestellten Dateien. Einerseits habe ich noch etwas in Bezug auf Datum in der YAML Datei dazugelernt, andererseits stellt sich etwas Ernüchterung ein da ich nun feststellen musste dass ein paar Dinge zusammengekommen sind die mich zu der falschen Annahme gebracht haben das da jüngste Datum in der Vergangenheit wäre die richtige Option - zumindest bis auf ganz wenige Ausnahmen.

Ich komme ja von ECODMS zu synOCR eigentlich auch nur aus dem Grund weil ich mit der Qualität der Texterkennung in ECODMS absolut nicht zufrieden war. Also war damals mein Ansatz OCR durch synOCR und dann in ECODMS ohne erneute Texterkennung.
Jetzt wo ich mich intensiver mit synOCR + Synology Drive beschäftigt habe und zu dem Entschluss kam dass dies die Lösung ist die ich mir immer vorgestellt habe, wollte ich die Dokumente aus ECODMS vollständig in Drive überführen.
Natürlich habe ich die Dokumente nicht mehr neu durch die Texterkennung von synOCR laufen lassen mit dem Ergebnis dass die älteren Dokumente mit OCR durch ECODMS einfach so schlecht war dass manche Datumsangaben gar nicht als Datum erkannt wurden oder auch einfach nicht als erstes Datum im erkannten Text stehen.
Insbesondere bei Dokumenten wie z.B. bei unseren Lohnabrechnungen steht das gesuchte Datum ganz oben rechts, von der OCR in ECODMS wurde dieses zum Teil gar nicht als Text/Datum erkannt oder meistens irgendwo in die Mitte des erkannten Textes geschoben, so dass das Eintrittsdatum welches älter ist einfach an erster Stelle kommt.
Das erklärt für mich warum die Option 1. Treffer das falsche Ergebnis liefert (Eintrittsdatum) während die Option Jüngstes Datum in diesem Fall das Richtige Datum liefert.
In den meisten Dokumenten ist ja auch nur ein Datum enthalten da scheint es mir auch logisch dass eben dieses eine Datum auch dem jüngsten Datum entspricht und somit auch richtig erkannt wird.

Festgestellt habe ich das ganze leider erst vorhin in dem ich mir intensiver die Searchfiles in den Logs angeschaut und vergliche habe. Nach neuer OCR sehen die Searchfiles zum Teil gravierend anders und genauer aus. Sowohl Text als auch Datumsangaben wurden erkannt und stimmen auch von der Reihenfolge her.

Leider ist nun meine Erkenntnis dass ich bei vielen Dateien nochmals die Texterkennung drüberlaufen lassen muss, denn ich habe zu viele Dokumente gefunden bei denen das Datum auf Grund der Einstellung "jünstes Datum" letztendlich doch falsch ist. Meine Diskstation wird wohl ne Weile ausgelastet sein.

Auf jeden Fall tut es mir Leid dass Zeit vergeudet wurde um mir bei einem Problem zu Helfen welches ich auch selber hätte Lösen können.

Grüße Chris.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.342
Punkte
234

Chr!s

Benutzer
Mitglied seit
22. Dez 2021
Beiträge
46
Punkte für Reaktionen
25
Punkte
68
Coole Sache! Werde ich mir noch in Ruhe anschauen, auf den ersten Blick denke ich das ist genau das richtige Helferlein :) (y)

Vielen Dank

Grüße Chris
 

driftkingisback

Benutzer
Mitglied seit
17. Sep 2020
Beiträge
122
Punkte für Reaktionen
4
Punkte
18
Hallo, noch ein Frohes neues Jahr, kurze Frage alles klappt gut,
Umbenennung klappt gut nur wie stelle ich ein, dass nach der umbennung kein SCAN_009432 kommt, benötige ich nicht.
Vielen Dank im Voraus
 

Anhänge

  • SCR-20240107-siwj.png
    SCR-20240107-siwj.png
    198,1 KB · Aufrufe: 5

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.179
Punkte für Reaktionen
1.012
Punkte
224
Es kann sein, dass du die Einstellungen für die Umbenennung noch mal anpassen musst. Damit wir dir da aber besser helfen können, stell bitte einmal einen Screenshot deiner Einstellungen hier ein.

@Struppix Danke für die schnelle Ergänzung
 
Zuletzt bearbeitet:
  • Like
Reaktionen: Struppix

seetreu

Benutzer
Mitglied seit
13. Jan 2024
Beiträge
4
Punkte für Reaktionen
1
Punkte
1
Hallo zusammen,

ich habe soweit alles wie gefordert eingerichtet. In SynOCR habe ich alle Einstellungen vorgenommen und im Aufgabenplaner habe ich ein benutzerdefiniertes script erstellt (Unter Befehl ausführen ist der korrekte Pfad eingefügt). Wenn. ich allerdings den manuellen Sync-Durchlauf starte, wird kurz gerechnet und ohne Fehlermeldung beendet. In der Statistik steht 0/0. Im Container Manager ist kein Image angelegt.

Frage: Kann es daran liegen, dass ich keinen Benutzer mit der Bezeichnung "root" habe?

Vielen Dank
 
  • Like
Reaktionen: C74

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.342
Punkte
234
Frage: Kann es daran liegen, dass ich keinen Benutzer mit der Bezeichnung "root" habe?
Doch, den hast auch du – ganz oben in der Liste der Benutzer im Aufgabenplaner.
(Die Liste springt beim Öffnen erst einmal auf den zweiten Eintrag)
 

seetreu

Benutzer
Mitglied seit
13. Jan 2024
Beiträge
4
Punkte für Reaktionen
1
Punkte
1
Ja, dort hatte ich ihn auch schon zuvor eingestellt.

Habe ich nochmal kontrolliert. Das Problem besteht weiterhin.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.342
Punkte
234
Welches Symbol ist in der Übersichtsseite zu sehen?
  • Eine blaue Sanduhr, ein grüner Haken oder ein rotes Kreuz?
  • Gibt es eine Logdatei?
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat