synOCR synOCR - GUI für OCRmyPDF

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.210
Punkte für Reaktionen
1.034
Punkte
224
Ja, einfach ein zweites Profil anlegen und den Inputordner ändern und den Scanner dann dahin scannen lassen. Mache ich daheim auch so.
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.210
Punkte für Reaktionen
1.034
Punkte
224
Sobald das Profil eingerichtet und gespeichert ist, läuft das automatisch. Die Auswahl der Profile ist nur notwendig, wenn du die Einstellungen anpassen willst.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Dafür sind Profile gedacht. 🙂
Aber wie du schon schreibst: entweder sind unterschiedliche Inputordner zu verwenden oder du arbeitest mit einen Präfix im Dateinamen.

Alle Profile, welche nicht deaktiviert sind, werden alphabetisch nach Name sortiert abgearbeitet.
 

luxdunkel

Benutzer
Contributor
Mitglied seit
22. Mai 2023
Beiträge
104
Punkte für Reaktionen
47
Punkte
28
Hallo,

bitte nicht steinigen falls diese Frage schon einmal gestellt wurde..
bei mir liegen auf dem Gerät wild verteilt geschätzt 10.000-15.000 pdf Dateien. Rund 3/4 davon haben bereits OCR.
Kann ich mit synocr realisieren, dass der Rest ebenfalls ocr erhält? Und die Datei dort bleibt wo sie ist?
 

wegomyway

Benutzer
Sehr erfahren
Mitglied seit
03. Aug 2022
Beiträge
1.348
Punkte für Reaktionen
571
Punkte
184
Ich häng mich nochmals hier rein.
Zusätzliche aktivierte Profile mit eigenem Input und Zielfolder und YAML-Datei also möglich und die Abarbeiten des Dokus durchwandert all die Profile auf "Treffer" ?
Vorstellung: Wenn ich für meine Vorstellung 4 Profile anlege und diese aktiviere, jedes seine eigene YAML bekommt mit eigenem Input/Zielfolder, wird dann dort auch für sich die YAML abgearbeitet OHNE dass der Blick ins andere Profil geht ?
Warum : bei mir gibt es Dokus wo im Grunde die Adresse immer drin steht. Da muss ich bei den Rules aufpassen was ich an Schlagwörtern verwende. Habe festgestellt dass das durchaus zu doppelten Ablegen von Dokus führt.
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
884
Punkte für Reaktionen
187
Punkte
63
OHNE dass der Blick ins andere Profil geht
Hallo wegomyway,

wenn Du für jedes Profil einen eigenen input Ordner anlegst und die entsprechenden Dokumentedort ablegst, dann werden sie auch nur mit diesem Profil abgearbeitet, würde ich jetzt mal behaupten.

In Deinem Fall den wir ja besprochen hatten wäre auch noch Dir Möglichkeit negative Subrules zu verwenden, also does not contains für die Suchwörter die nicht zutreffen dürfen.

Gruß Karsten
 
  • Like
Reaktionen: geimist

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
884
Punkte für Reaktionen
187
Punkte
63
Kann ich mit synocr realisieren, dass der Rest ebenfalls ocr erhält? Und die Datei dort bleibt wo sie ist?
Hallo,

hierzu hatte Stephan vor geraumer Zeit HIER geschrieben.
Normalerweise sollte es reichen, wenn Du im GUI den Parameter-s (nicht -f) verwendest.
Wichtig teste es vorher, das kann lange dauern, je nachdem wie viel Du machen willst.

Karsten
 
  • Like
Reaktionen: geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Korrekt. Bitte erstmal mit einem kleinen Unterordner testen, damit du die Logik verstehst und das Ergebnis wie erwünscht erzielt wird.
 

luxdunkel

Benutzer
Contributor
Mitglied seit
22. Mai 2023
Beiträge
104
Punkte für Reaktionen
47
Punkte
28
Ich habe synocr nun auf einer 218+ installiert und zum testen einen Ordner mit pdf Dateien dorthin kopiert. Wohin kopiere ich das Script von Stephan? In die yaml? Und welchen Parameter ändere ich in -s, den in Zeile 67? Sorry der Nachfragen…
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
  1. Es ist egal wo das Skript liegt. Du musst nur dessen Pfad im Aufgabenplaner korrekt eingeben.
  2. Gemeinst ist das Feld "OCR Optionen" in der synOCR-GUI. Der Parameter -s ist bei einer Neueinrichtung Standard.

    PS:
  3. Du musst für deinen Zweck die Dateien nicht in den synOCR-Quellordner verschieben. Sinn und Zweck diesen Hilfsskriptes ist es ja, dass die Dateien am ursprünglichen Ort geocrd werden. Also entweder zum Test einen kleinen Ordner sehr weit unten in der Hierachie im Skript angeben oder besser noch, mit einem separaten Probeordner testen.
 
Zuletzt bearbeitet:
  • Like
Reaktionen: luxdunkel

wegomyway

Benutzer
Sehr erfahren
Mitglied seit
03. Aug 2022
Beiträge
1.348
Punkte für Reaktionen
571
Punkte
184
weiter geht es.
Ich habe so einiges an Rechnungen, Lieferscheine und Zettellagen wo die Begriffe nicht drauf sind.
DIE nun einscannen mit dem 1700er geht ja flott.
Aber : bei der Masse an unterschiedlichen Begriffen, hat dieses Vorhaben überhaupt Sinn oder besser das Papier einfach im Karton zu belassen?
Vieles ist aus Garantie usw. raus aber sozusagen noch "da" und ich dachte mir "einscannen".
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
Vieles ist aus Garantie usw. raus aber sozusagen noch "da"
Das spricht ja vom Eigentumsnachweis abgesehen für "shreddern".

Da PDFs eher wenig Platz einnehmen, lösche ich so was aber meist nicht, sondern das kommt irgendwann in einen Unterordner (_archiv). Das ist sozusagen die Müllhalde vergangener Zeiten.

Das bietet sich doch auch für dich an. Pfeif' auf die Benennung, scanne alles ein, lasse synOCR das OCR machen, schiebe alle PDFs in einen solchen Ordner und shreddere das Papier. Im Notfall kannst du in dem Ordner eine Suche durchführen.
 
  • Like
Reaktionen: wegomyway und geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Dafür könnte man z.B. ein eigenes Profil erstellen, welches nur in einen Archive-Ordner verschiebt. Vielleicht noch mit /Jahr/Monat/ Sortierung (direkt so einzustellen in der GUI unter "Suchbereich für Tags" die 2. Zeile).
 
Zuletzt bearbeitet:

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
884
Punkte für Reaktionen
187
Punkte
63
hat dieses Vorhaben überhaupt Sinn
Hallo Holger,
die Frage kannst nur Du beantworten. Ich für meinen Teil weiß, dass man genau das wegwirft, was man dann definitiv braucht.
Was Peter und Stephan beschreiben ist ein Weg, da man dann mittels Wortsuche ja direkt in den Dokumenten suchen kann, und die Benennung relativ untergeordnet sein kann.
Andererseits schreibst Du Rechnungen, Lieferscheinen uä. Dafür kannst Du meinen Regelblock für Rechnungen verwenden. Schau mal Hier.
Diese kann man auch mit dem Konfigurator erstellen.

Wenn Du magst per PM schicke ich Dir meine Variante und wir legen das kurz an.
Ich nutze für Online Rechnungen nur noch diese Variante (Trefferquote weit über 90-95%).

Karsten
 
  • Like
Reaktionen: wegomyway und geimist

wegomyway

Benutzer
Sehr erfahren
Mitglied seit
03. Aug 2022
Beiträge
1.348
Punkte für Reaktionen
571
Punkte
184
@peterhoffmann , hast den Nagel auf den Kopf getroffen. Absolut.
@geimist , das wäre auch ne Möglichkeit.
Ich überlege mir wie ich es mache ... Danke Euch beiden.
Edit:
@Struppix zu spät deine Antwort gelesen. Ich grübel jetzt aber wirklich.
Muss nun los ... später mehr
 
  • Like
Reaktionen: peterhoffmann

murdocklee

Benutzer
Mitglied seit
17. Feb 2024
Beiträge
8
Punkte für Reaktionen
1
Punkte
3
Kann mir einer ein Tipp geben
wie muss ich das machen, ich möchte gerne dass er bei Arag + 120 012 112 oder Arag + 120012112 findet
Weil manchmal bekomme ich Briefe wo meine Kundennummer auseinander geschrieben sind und manchmal zusammen
Mit dem Tipp würde ich es auch bei meinen anderen Sachen einstellen, wenn ihr mir helfen könntet

Besten Dank


so sieht es bei mir aus die unteren zwei Zeilen habe ich neu eingefügt aber es geht nicht leider

tagname: Arag Rechtsschutz
targetfolder: /volume//Versicherungen/Rechtsschutz/Arag
multilineregex: false
condition: all
subrules:
- searchstring: Arag
searchtyp: contains
- searchstring: 120 012 112
searchtyp: contains
- searchstring: 120012112
searchtyp: contains
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
884
Punkte für Reaktionen
187
Punkte
63
Hallo,

Code:
rule_1001:
    tagname: Arag Rechtsschutz
    targetfolder: /volume1/Versicherungen/Rechtsschutz/Arag
    condition: all
    subrules:
    - searchstring: (?i)(Arag\s*120\s*012)
      searchtyp: contains
      isRegEx: true

Noch ein Hinweis: Dein Pfad ist etwas seltsam. Schau mal bitte ...

Gruß
Karsten
 
  • Like
Reaktionen: wegomyway und geimist

murdocklee

Benutzer
Mitglied seit
17. Feb 2024
Beiträge
8
Punkte für Reaktionen
1
Punkte
3
Hallo Karsten

Bedeutet das jetzt wenn im Brief ARAG und 120 012 112 Auftaucht verschiebt er das
und wenn im Brief ARAG und 120012112 verschiebt er das auch ?

bei mir Funktioniert es ohne das ich das reinschreibe isRegEx: true aber ich werde es mit reinschreiben


Habe es so geändert geht aber nicht

rule_1001:
tagname: Arag Rechtsschutz
targetfolder: /volume//Versicherungen/Rechtsschutz/Arag
multilineregex: false
condition: all
subrules:
- searchstring: (?i)(Arag\s*120 012 112\s*120012112)
searchtyp: contains
isRegEx: true
 
Zuletzt bearbeitet:


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat