synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.511
Punkte für Reaktionen
1.347
Punkte
234

arphex

Benutzer
Mitglied seit
17. Nov 2011
Beiträge
171
Punkte für Reaktionen
0
Punkte
22
OCR läuft auch bei mir immer noch 1a. Auch unter dem neuesten DSM Build auf 918+.

Was ich gern wissen würde, wie das mit den Labels und Dateinamen funktioniert.
Gibts hier eine kompakte und verständliche Anleitung.

Habe hunderte Dokumente die alle 2023-04-07__Scannen.pdf
Also "Datum_Scannen.pdf" heissen, geht das auch irgendwie übersichtlicher?
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
880
Punkte für Reaktionen
179
Punkte
63
Schau mal ins Wiki, da ist recht anschaulich beschrieben wie man das machen kann.

Gruß Karsten
 
  • Like
Reaktionen: D_Espero und geimist

arphex

Benutzer
Mitglied seit
17. Nov 2011
Beiträge
171
Punkte für Reaktionen
0
Punkte
22
Hi Struppix,
du beziehst dich bestimmt auf diese Seite https://github.com/geimist/synOCR/wiki/03_YAML-(de) ?
Das ist so kompliziert geschrieben, dass ich es einfach nicht nachvollziehen kann.

Hat jemand eine einfache nachvollziehbare Anleitung dafür ?
Danke im Voraus
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte für Reaktionen
42
Punkte
28
Also ich finde das schon verständlich. Ich bin damit super klar gekommen. Aber du kannst ja was neues an Doku schreiben. Stephan stellt das dann bestimmt gerne online...
 
  • Like
Reaktionen: geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.511
Punkte für Reaktionen
1.347
Punkte
234
Das ist so kompliziert geschrieben, dass ich es einfach nicht nachvollziehen kann.
@Struppix hat sich da viel Mühe gegeben, um auch viele Konstellationen abzubilden.

Was ist denn deine Ausgangssituation?
Es klang so, als wenn deine Dokumente schon fertig sind.

Als Erstes musst du in deinem Profil in der synOCR GUI deine Umbenennungssyntax erstellen - also das Schema, wie dein zukünftiger Dateiname aussehen soll. Einfache Regeln kannst du auch in der GUI angeben. Möchtest du Wörter finden, die nicht 1:1 so im Dokument stehen, dann kommst du nur mit den YAML-Regeln weiter. Du musst da aber nicht unbedingt mit (kompliziert aussehenden) regulären Ausdrücken arbeiten - aber damit geht halt mehr.
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
880
Punkte für Reaktionen
179
Punkte
63
Hallo,
danke für das Feedback. Es sollte halt auch so eindeutig wie möglich sein, und möglichst viele Möglichkeiten aufzeigen. Habe mir allergößte Mühe gegeben ;)

Nun es gibt grundsätzlich 2 Vorgehensweisen:
  1. Du verwendest das Suchfeld im GUI. Den Absatz findest Du hier. Dort trägst Du den / die Suchbegriffe Deiner Wahl ein, und könntest Sie gleich in den Ordner Deiner Wahl verschieben lassen. Hierzu ein Beispiel: Trage unter
    Code:
    zu suchende Tags
    den / die Suchbegriff(e) ein
    Code:
    E.ON
    . Setze den Schalter unter
    Code:
    Suchbereich für Tags
    aus
    Code:
    verwende Tag basierte Ordner
    . Fertig! Trägst Du nur den Suchbegriff ein, wird im _OUTPUT ein neuer Ordner mit dem Namen des Suchbegriffes angelegt.
  2. Du erstellst Dir ein YAML-Datei, was auch direkt dort beschrieben ist, und versuchst mal die Regel im wiki 330 hier anzuschauen. Einfach Deine Suchwörter für eine Kategorie (also nur E.ON, jeweils eine Regel pro Kategorie) und Dein Zielverzeichnis in der neuen YAML-Datei eintragen. Die Regeln durchnummerieren und im Feld unter
    Code:
    Suchbereich für Tags
    aus
    Code:
    verwende Regel-definierte Ordner
    auswählen. Fertig!
Falls das immer noch zu kompliziert war, beschreibe mal ein Beispiel was Du machen möchtest.

Gruß Karsten
 

allahopp

Benutzer
Mitglied seit
15. Mai 2022
Beiträge
133
Punkte für Reaktionen
10
Punkte
18
Hallo,

habe gerade eben das Update auf 1.3.99.8 durchgeführt (vorher war eine Version von 06/2022 drauf).

Vorgegangen bin ich so, dass ich as aktuelle *.spk heruntergeladen habe und über das Packetcenter manuell intstalliert habe.
--> Ist das so korrekt oder muss dies auf eine andere Weise erfolgen?

Weiterhin ist mir aufgefallen, dass die Größe der Pakete sehr unterschiedlich ist. Die Version aus 06/2022 hat ca. 8,5 MB, während die 1.3.99.8 nur noch 2,1 MB hat.
--> Warum ist die Größe nur noch 1/4?

Danke und Gruß
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.511
Punkte für Reaktionen
1.347
Punkte
234
Vorgegangen bin ich so, dass ich as aktuelle *.spk heruntergeladen habe und über das Packetcenter manuell intstalliert habe.
Du hast den Snapshot-Build geladen - also die Betaversion des zukünftigen Release. Wirklich falsch hast du damit nichts gemacht. Es sind halt nicht alle zukünftigen Features vollständig und auch nicht vollständig entfehlert.

Das aktuelle stabile Release ist "latest".

--> Warum ist die Größe nur noch 1/4?
Vor Version 1.3.0 wurden einige Programme mitgeliefert. Ab Version 1.3.0 werden diese Abhängigkeiten über Python realisiert. Das macht das Ganze nativer.
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Bin gerade dabei eine neue Regel in die YAML-Datei aufzunehmen. Diese funktioniert bereits, jedoch findet bei mir synOCR das "falsche" Datum: 17.03.206,. statt 20.04.2021

2023-04-14_143208.jpg

Es wird das linke Datum ermittelt, was per se ja korrekt ist, jedoch ist das eigentliche Rechnungsdatum für mich interessant, um die Datei entsprechend zu benennen.

Wie geht ihr bei solchen Dokumenten vor, um gezielt das gewünschte Datum zu finden?

Ich weiß, ich könnte in der GUI, bestimmte Datum ignorieren, aber wenn ich tatsächlich Mal in die Verlegenheit kommen würde, ein Dokument aus der Vergangenheit zu scanne, weil bspw. irgendwelche Leitz-Ordner aufgelöst werden sollen, dann müsste ich jedes Mal in der GUI anpassen.

Michael
 

gunfran

Benutzer
Mitglied seit
25. Nov 2014
Beiträge
31
Punkte für Reaktionen
17
Punkte
58
@Yippie
Ich hab das gerade nicht direkt vor Augen.
Aber in den Einstellungen in der GUI gibt es zu dem Datum eine Einstellung welches Datum bei mehreren gefundenen Datumsangaben nehmen soll.
Die Einstellung die für mich am besten gepasst hat hieß in etwa "Datum am nächsten zum aktuellen Datum" oder so ähnlich.

Es war eine Auswahlliste zum auswählen.
 
  • Like
Reaktionen: Yippie

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.511
Punkte für Reaktionen
1.347
Punkte
234
Zur Auswahl stehen:
  • 1. Treffer im Dokument
  • jüngstes Datum in der Vergangenheit
Das zweite sollte hier das gewünschte Ergebnis liefern. Aber bedenke: Diese Einstellung ist global – bezieht sich also auf alle Dokumente, die von dem entsprechenden Profil bearbeitet werden.
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Es war eine Auswahlliste zum auswählen.
Perfekt! Ja, Danke für den Tipp!

Ich habs jetzt so eingestellt und zusätzlich noch das unerwünschte Datum auch ausgeschlossen. Ich glaube nicht, dass ich irgendwann Mal Dokumente erkennen lasse, die den 17.03.2016 haben werden:

2023-04-14_145459.jpg
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Diese Einstellung ist global – bezieht sich also auf alle Dokumente, die von dem entsprechenden Profil bearbeitet werden.
Hier waren sie wieder meine "Probleme" ;-) Bin halt eher ein YAML-Junkie und würde diese wieder Mal regel basierend einstellen!

Aber aktuell läufts perfekt, was @gunfran vorgeschlagen hat - Danke!
 

gunfran

Benutzer
Mitglied seit
25. Nov 2014
Beiträge
31
Punkte für Reaktionen
17
Punkte
58
Ich habs jetzt so eingestellt und zusätzlich noch das unerwünschte Datum auch ausgeschlossen. Ich glaube nicht, dass ich irgendwann Mal Dokumente erkennen lasse, die den 17.03.2016 haben werden:
Freut mich das es für dich jetzt passt. Bei dem ignorieren von Datumsangaben muss man natürlich ein wenig vorsichtig sein.
Wenn man irgendwann mal anfängt jede Menge alte Dokumente zu scannen und man vergessen hat was man alles auf die ignore-Liste gepackt hat kann es natürlich zu komischen Ergebnissen führen.
Das kannst aber natürlich nur du selber für dich entscheiden.
Ich versuche immer nur so wenig Datumsangaben wie möglich auf die ignore-Liste zu packen.
 
  • Like
Reaktionen: Yippie

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.511
Punkte für Reaktionen
1.347
Punkte
234
Hier waren sie wieder meine "Probleme" ;-) Bin halt eher ein YAML-Junkie und würde diese wieder Mal regel basierend einstellen!
Dafür müsste die gesamte Logik umgebaut werden, weil ja beliebig viele Regeln für ein Dokument angewandt werden können und bereits die Datumswerte (Jahr, Monat, Tag) als Variablen in den YAML-Regeln zur Umbenennung herangezogen werden können.

Ich sehe natürlich den Vorteil, viele Einstellungen granular via YAML steuern zu können. Man muss aber auch die Herkunft berücksichtigen: Ursprünglich war ja synOCR genau für das andere Klientel entworfen worden, nämlich ohne große Konfiguration OCR und Sortierung über die GUI für jeden User realisierbar zu machen. Dank dir, @Yippie, kam ja dann die YAML-Steuerung hinzu, was natürlich neue Möglichkeiten bietet und Begehrlichkeiten weckt :cool:. Aber es steht ja nichts still und dank Github war es ja noch nie so einfach, synOCR mit Codevorschlägen zu unterstützen. Mal sehen, wo uns der Weg hinführt …
 
  • Like
Reaktionen: Gthorsten und Yippie

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Ich weiß Stephan, du und anderen tut euer Möglichstes, was ich sehr zu schätzen weiß (y) aber ab und an nerv ich dich auch wieder mit meinen Verbesserungsvorschlägen;)

Bin seit mehr als 30 Jahren in der IT zugange, als Programmierer innerhalb SAP, und kenne daher auch die nervigen Anfragen, die halt nicht immer umsetzbar sind :cry:
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat