synOCR synOCR - GUI für OCRmyPDF

BigStephan

Benutzer
Mitglied seit
14. Apr 2014
Beiträge
16
Punkte für Reaktionen
1
Punkte
3
siehe Bild

20210121_195314.jpg

Da sieht man auch ganz gut, dass er alle Tags nach Alphabet sortiert...
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
@BigStephan Ich kann das bei mir nicht nachvollziehen :unsure:

Kannst du das mal auf der Shell ausführen (gibt das Änderungsdatum der Datei aus):
stat -c %y "/Pfad/Ausgabe.pdf"
 

BigStephan

Benutzer
Mitglied seit
14. Apr 2014
Beiträge
16
Punkte für Reaktionen
1
Punkte
3
Nö ...#strom#rechnung#stefan.pdf spricht gegen alphabetische Sortierung.
Ähm...ne...ich hab meinen Stromanbieter hier vorm Foto aus dem Dateinamen rausgelöscht (ein wenig Datenschutz muss sein)..der fing mit "d" an...ja das ist ungünstig, aber glaubts mir...er sortiert IMMER nach Alphabet. ;)
 

BigStephan

Benutzer
Mitglied seit
14. Apr 2014
Beiträge
16
Punkte für Reaktionen
1
Punkte
3
Ok...such nicht weiter. Das Datum scheint richtig drin zu stehen. Wenn ich im Windows die Eigenschaften der Datei aufrufe steht da auch das richtige drin. Scheint n Anzeigeproblem vom Explorer zu sein bei mir. Sorry
Trotzdem bleibt das Alphabetproblem....Du hast oben was von "sort -u" geschrieben...wo find ich das, bzw. wo soll das rein?

Grüße
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Dort verlinkt war nur der Verweis zur entsprechenden Stelle im Quellcode. Mal gucken, ob ich die Eindeutigkeit der Tags anders herbeiführe.

EDIT: Du kannst mal das aktuelle Build von meinem Server probieren. Die Reihenfolge sollte jetzt nicht mir sortiert werden.
 
Zuletzt bearbeitet:

oberhex

Benutzer
Mitglied seit
18. Apr 2015
Beiträge
15
Punkte für Reaktionen
3
Punkte
3
Hallo zusammen, erstmal einen schönen Gruß aus dem Schwabenland. Lese schon lange hier mit und möchte mich auch für das tolle Tool, das Kollege geimist hier gezaubert hat bedanken. Hat maßgeblich dazu beigetragen, dass mein Büro mitlerweile einen hohen Digitalisierungsgrad hat.
Habe mich mitlerweile auch in die Automatisierung mittels YAML-Datei vorgewagt, was auch sehr gut funktioniert. Nun wollte ich die automatische Ablage in definierte Ordner über die Links in der YAML-Datei einführen, was aber jetzt ein großes Problem bereitet. Der OCR-Prozess funktioniert, die Datei wird entsprechend umgenannt und in den definierten Ordner verschoben, ist danach nicht zu öffnen (mit verschiedenen PDF-Viewern getestet).
Ich habe das Forum entsprechend durchsucht aber nichts gefunden, kennt jemand noch dieses Problem? Vielen Dank im Voraus! Gruß
 
  • Like
Reaktionen: peterhoffmann

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Die Rechte bringen mich noch zur Weißglut ?
Da haben wir ja in der Vergangenheit schon öfters dran 'rumgeschraubt - ich dachte inzwischen, dass es jetzt passt.

Du kannst mir gerne mal ein Log schicken (Link in Signatur), aber bitte keine schnellen Wunder erwarten.
(bitte mit Logeinstellung "2 erweitert")
 
Zuletzt bearbeitet:

vasw

Benutzer
Mitglied seit
04. Jan 2021
Beiträge
11
Punkte für Reaktionen
0
Punkte
1
Hallo Zusammen,
ich habe einige Dokumente (z.B. Lebensversicherung) wo auf dem Schreiben ein Datum in Form von "Januar 2021" steht.
Weiter im Schreiben taucht dann 01.01.2044 (Laufzeitende).
OCR Rename-Syntax nimmt das Datum 01.01.2044
Kann man dem entgegen wirken, so das "Januar 2021" oder 2021-01_xxx für das Umbenennen der Datei verwendet wird...

Vielen Dank schon mal für Eure RM
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Derzeit können leider noch keine ausgeschriebenen Monatsnamen erkannt werden - das sehe ich als wichtiges Feature für die Zukunft. Um nicht gewünschte Datumsangaben ignorieren zu können, soll es in Zukunft dafür eine Blacklist geben. Kurz gesagt: im aktuellen Stand gibt es für beides leider keine Lösung :confused:
 
  • Like
Reaktionen: peterhoffmann

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
nicht gewünschte Datumsangaben ignorieren
Das finde ich eine sinnvolle Funktion, etwas oberhalb des aktuelles Datums (z.B. 2023 und höher), sowie weit unterhalb (z.B. 2015 und niedriger).
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Die Idee war, einzelne Daten in der GUI angeben zu können. @DeeKay1 hatte das ja schon was vorbereitet (#1258), was er noch einfliegen wollte. Er ist bestimmt noch nicht dazu gekommen.
Eine Range angeben zu können wäre auch eine gute Option (<yyyy-mm-dd)
 
Zuletzt bearbeitet:

BigStephan

Benutzer
Mitglied seit
14. Apr 2014
Beiträge
16
Punkte für Reaktionen
1
Punkte
3
Dort verlinkt war nur der Verweis zur entsprechenden Stelle im Quellcode. Mal gucken, ob ich die Eindeutigkeit der Tags anders herbeiführe.

EDIT: Du kannst mal das aktuelle Build von meinem Server probieren. Die Reihenfolge sollte jetzt nicht mir sortiert werden.
Hallo Stephan,

ich hab das latest built mal installiert. Aber sowohl als Update, als auch als komplette Neuinstallation hab ich das Problem dass ich zwar auf die erste Seite der GUI komm, aber wenn ich auf Konfiguration klick, passiert garnichts...
 

vasw

Benutzer
Mitglied seit
04. Jan 2021
Beiträge
11
Punkte für Reaktionen
0
Punkte
1
Hallo,
versuche mich als absoluter Anfänger mit YAML und synocr... irgendwas mach ich falsch...
Das steht im text file
************************
synOCR_YAMLRULEFILE

Test1:
tagname: HS
targetfolder:
condition: all
subrules:
- searchstring: Helena
searchtyp: contains
isRegEx: false
source: content
casesensitive: true
*************************
die PDF wird nicht umbenannt bzw. ist im Dateinamen nicht der tagname enthalten
Auszug aus dem Log:

ERROR-Message: [31m16:56:32 main [ERRO][0m yaml: line 3: mapping values are not allowed in this context

Könnte jemand ein einfaches Beispiel geben wie so eine Yaml Datei aussieht bzw. was alles in diesem text file drin stehen muss

Vielen Dank schon mal.
 

Fusion

Benutzer
Sehr erfahren
Mitglied seit
06. Apr 2013
Beiträge
14.159
Punkte für Reaktionen
912
Punkte
424
Leerzeichen / Einrückungen am Anfang der Zeilen sind wichtig.

Ansonsten gehst mal ein zwei Seiten zurück hier im Thread, da kamen Beispiele.
 
  • Like
Reaktionen: geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Außerdem sollten ALLE Zeilen, welche nicht mit einem Regelblock im Zusammenhang stehen, auskommentiert sein (d.h., ein # steht am Anfang der Zeile). In deinem Beispiel sind 3 Zeilen nicht auskommentiert, was zu Fehlern führt.

So sollte es valide sein:
YAML:
# ************************
# synOCR_YAMLRULEFILE

Test1:
    tagname: HS
    targetfolder:
    condition: all
    subrules:
    - searchstring: Helena
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: true
# *************************
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Hallo Stephan,

ich hab das latest built mal installiert. Aber sowohl als Update, als auch als komplette Neuinstallation hab ich das Problem dass ich zwar auf die erste Seite der GUI komm, aber wenn ich auf Konfiguration klick, passiert garnichts...
@BigStephan
Sorry, erst hatte ich deine Nachricht übersehen und dann musste ich noch den Fehler finden. Du kannst gerne nochmal testen - auf dem Server liegt ein aktuelles Build.
 

vasw

Benutzer
Mitglied seit
04. Jan 2021
Beiträge
11
Punkte für Reaktionen
0
Punkte
1
.... Beim Posten von Code, wie deinem YAML-Beispiel, bitte unbedingt hier im Thread auch als Code einfügen - so wird er korrekt dargestellt und man kann Fehler eher erkennen.
sorry für die Frage, aber wie geht das? ist das der "BBcode umschalten" Button oben rechts im Editor?
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
Rechts neben "Tabelle einfügen" sind drei Punkte. Wenn man darauf klickt, erscheinen noch drei Symbole. Davon ist es das Symbol rechts mit den eckigen Klammern und dem Slash.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat