synOCR synOCR - GUI für OCRmyPDF

driftkingisback

Benutzer
Mitglied seit
17. Sep 2020
Beiträge
122
Punkte für Reaktionen
4
Punkte
18
super, so das habe ich erledigt, wo finde ich jetzt syn ocr?
der pfad muss der klein geschrieben sein? Volumes/DRIVE/01_Gemeinsam/01_Scans
so wäre der dann bei mir
finde synocr nicht
 

Anhänge

  • Bildschirmfoto 2020-09-17 um 22.55.24.png
    Bildschirmfoto 2020-09-17 um 22.55.24.png
    53 KB · Aufrufe: 25
  • Bildschirmfoto 2020-09-17 um 22.59.43.png
    Bildschirmfoto 2020-09-17 um 22.59.43.png
    234,3 KB · Aufrufe: 25

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.391
Punkte
234
Oben links im DSM findest du doch den Button zum "Hauptmenü" wo alle installierten Apps aufgelistet werden. Dort sollte auch synOCR vorhanden sein. Alternativ hast du ja bereits das Paketzentrum offen. Bei den installierten Paketen findest du auch synOCR mit einem Button "öffnen".

Für die korrekte Pfadangabe gehst du am besten in der FileStation zu dem gewünschten Ordner und klickst rechts drauf ? Kontextmenü Eigenschaften ? hier findest du die Pfadangabe, die du nur noch kopieren musst (z.B. /volume1/scan/Eingang/)
 

driftkingisback

Benutzer
Mitglied seit
17. Sep 2020
Beiträge
122
Punkte für Reaktionen
4
Punkte
18
Super, ich hab es endlich hinbekommen, vielen Dank, super Programm/Software
nur eine Frage, die Datum Erstellung klappt, ich dachte der Sucht auch nach Dateinamen, was im Text/ PDF steht

siehe Anbei: vorher / nachher

die erste Datei/PDF war ein Mitgliedsbescheinigung/Rentenversicherungsnr. ich dachte der benennt die Datei dann auch so
 

Anhänge

  • Bildschirmfoto 2020-09-18 um 00.32.07.png
    Bildschirmfoto 2020-09-18 um 00.32.07.png
    420,6 KB · Aufrufe: 38

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.391
Punkte
234
Ich freue mich über deinen Erfolg (y)

Zu deiner Frage:
Der Text des Dateinamens steht für die Datumssuche nicht zur Verfügung (als Quelle möglich ist: der OCR Text, das Dateidatum oder der aktuelle Zeitpunkt).
 

driftkingisback

Benutzer
Mitglied seit
17. Sep 2020
Beiträge
122
Punkte für Reaktionen
4
Punkte
18
das Datum stimmt alles, ich meine danach z.B
2020_07_04_RECHNUNG.pdf
oder
2020_07_04_Mitgliedsbescheinigung.pdf

das der via ocr nach dem Datum irgendwas schreibt, wie Mitgliedsbescheinigung oder Rechnung, Vertrag....Das müsste doch gehen...ich glaub ich habe nur etwas falsch eingestellt
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.391
Punkte
234
Sorry, da hatte ich dich falsch verstanden.
Hast du dafür Regeln erstellt?
In das Feld "zu suchende Tags" musst du deine gewünschten Begriffe eintragen. Halte mal die Maus auf das blaue Info-i dahinter.
 

driftkingisback

Benutzer
Mitglied seit
17. Sep 2020
Beiträge
122
Punkte für Reaktionen
4
Punkte
18
anbei der Screenshot
Erstmal Danke für den Support,
also ich bin schon mal weitergekommen

1989-10-07#Bescheinigung_..........
2017-10-05#Rechnung_.......
das klappt schon mal super, kann ich auch danach nach Rechnung oder Bescheinigung durch OCR Benennen lassen? also z.B

1989-10-07#Bescheinigung_Krankenhausaufenthalt(das hätte er im Dokument gefunden)

oder

2017-10-05#Rechnung_Mediamarkt

2017-10-05#Rechnung_T-Mobile-Handy

2017-10-05#Bescheinigung_Studienbescheinigung. --> also das der nach einem Titel schaut, Hauptbegriff hier wäre das Studienbescheinigung.



Die zweite Frage: Ich würde dann gerne automatisch das Einsortieren lassen in Ordner
Rechnung
Versicherung
Bescheinigung
Quittungen

Muss ich die Ordner dann im Output Ordner erstellen?

Wäre super wenn du es Schritt für Schritt erklären könntest, bin schon froh das ich so weit gekommen bin
 

Anhänge

  • Bildschirmfoto 2020-09-18 um 10.44.52.png
    Bildschirmfoto 2020-09-18 um 10.44.52.png
    84,4 KB · Aufrufe: 28
  • Bildschirmfoto 2020-09-18 um 10.45.08.png
    Bildschirmfoto 2020-09-18 um 10.45.08.png
    101,1 KB · Aufrufe: 30

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.391
Punkte
234
… das klappt schon mal super, kann ich auch danach nach Rechnung oder Bescheinigung durch OCR Benennen lassen? …
Mit der einfachen Methode in der GUI kannst du nur ganze Begriffe oder Wortfolgen suchen. Wenn du also nach "ich bin eine Mediamakrtrechnung" suchst, würdest du genau diesen Begriff als Tag für den Dateinamen setzen, sofern die Suche positiv ist. Wie man sieht, ist diese Suche sehr eingeschränkt.

Wenn du spezielle Suchmuster definieren möchtest, dann musst du eine externe Regeldatei nutzen (dafür ist der blaue Button in der GUI - deine bestehenden Regeln werden konvertiert). Diese Datei musst du dann mit einem Texteditor bearbeiten. Da kannst du dann z.B. definieren, das beim Fund des Begriffs X der Tag Y gesetzt werden soll.

Die zweite Frage: Ich würde dann gerne automatisch das Einsortieren lassen in Ordner
Die Ordner werden erstellt. Wenn du die einfachen Tagregeln der GUI verwendest, musst du den Zielordner mit einem = definieren Suchbegriff_1=Zielordner;Suchbegriff_2=Zielordner;…
 

driftkingisback

Benutzer
Mitglied seit
17. Sep 2020
Beiträge
122
Punkte für Reaktionen
4
Punkte
18
Super.. das mit den Ordnern hat auch geklappt und OCR auch.
Jetzt bearbeitet der Docker diese Dateien auf meinem NAS.
Wie stelle ich nun ein, das mein MAC auch auf der NAS sucht also OCR Inhalt?
Ich suche ein Begriff mit der Lupe am MAC und das der auch auf der NAS schaut ob dort gescannte Dokumente OCR Inhalt haben.
Wenn das klappt, kann ich beruhigt ins Wochenende gehen.

Nochmal Danke für die nette Hilfe, echt DANKE
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.391
Punkte
234
Dazu musst du im Paket Universal Search den Ordner mit deinen PDF-Dokumenten zum Index hinzufügen.
Wenn du dann auf dem Mac mit dem Finder auf dein NAS zugreifst, kannst du oben rechts im Findersuchfeld nach Begriffen suchen (da wird der Index von Universal Search genutzt). Die Spotlightsuche auf dem Mac funktioniert dafür aber nicht. Dazu könntest du lediglich deinen Ordner mit den PDF-Dokumenten mit Drive auf deinem Mac syncronisieren. So klappt's dann auch mit Spotlight.
 

Favi

Benutzer
Mitglied seit
19. Okt 2015
Beiträge
59
Punkte für Reaktionen
0
Punkte
6
Hallo geimist,

nachdem ich vor längerer Zeit die früheren Diskussionen hier im Forum zum Thema automatischer OCR gesehen hatte und mir noch dachte "das ist mir zu komplex ohne GUI, wäre aber schön für meine Ablage", habe ich mich dann sehr über Dein Engagement gefreut. Nach wochenlangem Nach- und Mitlesen kann ich als weiterer Nutzer feststellen: Es funktioniert super und erleichtert mir wirklich das Leben! Dafür herzlichen Dank - ich habe mir erlaubt, mich mit einer kleinen Spende zu bedanken, denn Dein unermüdlicher Einsatz hier ist wirklich unvergleichlich.

Vielleicht habe ich die Funktion dazu noch nicht gefunden, daher noch zwei Fragen:
  • Gibt es die Möglichkeit, außer thematischen Tags auch andere Felder zu definieren? Ich habe mein PDF-Archiv jedenfalls bei Schreiben (die Mehrheit der archivierten PDFs bei mir) bisher immer so benannt: "YYYY.MM.DD - Sender - Empfänger - Betreff".
    Bei den bisher erfassten Posteingängen in meiner SynOCR-Installation habe ich mir damit geholfen, dass ich nach Sender, Empfänger und Betreff für einen Tag gesucht habe und bei einem Treffer für alle Suchbegriffe ("all") den Teil des Dateinamens nach dem Datum komplett als einen Tag angegeben habe. Der Tag für Rechnungen der Telekom lautet dann z.B. "Telekom - Favi - Rechnung". Für eine wachsende Tag-Datenbank würde ich das aber gerne aufteilen und nicht für jeden regelmäßigen Eingang wieder meinen Namen hinterlegen. Dann könnte ich die Zusammensetzung des Dateinamens in der Maske von SynOCR z.B. als "sender - receiver - tag" definieren.
  • Kann ich Inhalte wie z.B. eine Rechnungsnummer aus dem Dokument nehmen? Ich hätte bestimmte Suchbegriffe ("Rechnungsnr.") und die Länge der Nummer, bietet SynOCR aktuell die Möglichkeit, das in den Dateinamen zu schreiben?

Sollte es die Funktionen nicht geben, würde ich mich freuen, wenn sie vielleicht irgendwann angedacht werden (vielleicht gibt es hier mehr Nutzer, die das praktisch fänden). So wie das Programm momentan läuft ist es aber auf jeden Fall schon ein echter Gewinn für mich, herzlichen Dank nochmal!

Viele Grüße
Favi
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.391
Punkte
234
… Dein unermüdlicher Einsatz hier ist wirklich unvergleichlich
Vielen Dank. Aber das würde ich so nicht unterschreiben. Ich versuche nur meinen Teil dazu beizutragen. Auch mir wurde schon viel in diesem Forum geholfen. Sonst gäbe es dieses Paket nicht.
  1. nutzt du die einfache Regeldefinition in der GUI, oder die erweiterten Regeln mit einem YAML-File?
    Ich vermute, dass ich dein Problem noch nicht richtig durchblickt habe.
  2. schließt sich an 1. an. Mit dem passenden RegEx (in einer externen YAML-Regeldatei) kannst du auch nach Mustern suchen. Allerdings ist der entsprechende Tag nicht dynamisch. Das sollte aber machbar sein, sofern benötigt. Bitte frage mich nicht nach dem passenden RegEx - davon verstehe ich nichts … ;)
 

Favi

Benutzer
Mitglied seit
19. Okt 2015
Beiträge
59
Punkte für Reaktionen
0
Punkte
6
Ich nutze die erweiterten Regeln mit einer YAML-Datei. Dass ich nach Mustern suchen kann (auch wenn ich von RegEx noch überhaupt gar nichts verstehe), ist mir grundsätzlich klar. Das muss ich mir noch ansehen...
Die Frage ist: Wie bringe ich das Suchergebnis genauso in den Dateinamen. Wenn also Rechnungsnr. 123 gefunden wird, wie schaffe ich es, dass der Dateiname "123" enthält? Selbst wenn ich RegEx soweit für mich nutzbar mache, fehlt ja noch der dynamische Tag, wie Du richtig sagst.

Meine erste Frage lässt sich vielleicht einfacher fassen als: Könnte man in SynOCR verschiedene Tags aus Tag-Gruppen im YAML-File für den Dateinamen kombinieren, statt einfach nur alle Tags dort nacheinander aufzuzählen?

Dann könnte ich sagen: Mehrere Tags im Definitions-File gehören alle zur Gruppe "Sender". Andere gehören zur Gruppe "Empfänger" etc. Die Dateinamen-Bauanweisung im GUI lautet in meinem Beispiel "Datum - taggroup_Sender - taggroup_Empfänger" oder ähnlich. Das würde die Definition der Suchen im YAML-File flexibler und übersichtlicher machen und die Zusammensetzung des Dateinamens für Benennungs-Schemata wie meines in die GUI verlagern.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.391
Punkte
234
  1. also wie schon gesagt: Tags sind derzeit nicht dynamisch. Das schreibe ich mir mal mit auf. Hier stellt sich mir dann die Frage: Man kann ja Sub-Regeln kombinieren. Das Ergebnis welcher Sub-Regel sollte dann der Tag sein?
  2. Das würde die … Zusammensetzung des Dateinamens für Benennungs-Schemata wie meines in die GUI verlagern.
    Das Benennungs-Schema ist ja für jedes Profil einmalig und das ändert man ja in der Regel nicht im Workflow.
    (Am liebsten würde ich alles in die GUI bringen. Das kann ICH aber nicht.)
    Du kannst doch aber die Tagregeln durch die jeweiligen Unterregeln relativ granular aufbauen. Kannst du das damit nicht abbilden?
    Letztendlich möchtest du doch Tag X im Dateinamen, sofern die Regeln 1, 2 und 3 zutreffen.
    Andererseits sehe ich jetzt keinen schnellen Weg, wie ich das mit einer überschaubaren Anzahl Tüftelstunden realisieren könnte :(
 
Mitglied seit
30. Nov 2014
Beiträge
57
Punkte für Reaktionen
3
Punkte
8
Hallo zusammen,
habe gerade festgestellt, dass seit einiger Zeit die Trennzeichen zwischen den Tags nicht mehr erstellt werden. Das scheint so zu sein seit ich die Datei erstellen lassen hab. Bin mir nicht sicher, ob ich sie angepasst habe. Ist dieses Symptom bekannt bzw. wo wäre der Fehler zu suchen?

Besten Dank!
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.391
Punkte
234
Mitglied seit
30. Nov 2014
Beiträge
57
Punkte für Reaktionen
3
Punkte
8
Leerzeichen Minus Minus Leerzeichen
Das wird - wenn ich das Textfeld für die Tags nutze - zwischen jeden Tag geschrieben
Mit der ausgelagerten TagConfig wurde das jedoch nur vor dem ersten Tag (aber ohne Leerzeichen) und vor dem ausgelesenen Datum eingefügt.
Ich muss nochmal testen, ob das bei einer unberührten generierten TagConfig auch der Fall ist.
 

gergi

Benutzer
Mitglied seit
24. Jul 2020
Beiträge
10
Punkte für Reaktionen
1
Punkte
3
Hi,

ich habe aktuell das Problem, dass bei mir das Verschieben in einen Ordner nicht klappt.

Ich habe eine externe Regeldatei erstellt in der dann in die dementsprechenden Zielordner sortieren will.

Ich habe in der Konfiguration "Ziel-PDF in Kategorieordner einsortieren" ausgewählt.
Dann bekomme ich im entsprechenden Zielordner die richtige Datei mit 0bytes.
Im log kommt der Fehler das kein Hardlink erstellt werden kann.

Code:
 move to category directories
                  tag directories "/volume1/Dokumente/Michael/Rentenversicherung" exists? ?  OK [absolute path]
                  target:   /volume1/Dokumente/Michael/Rentenversicherung/2003-05-13_#Renteninformation#Rentenversicherung_20200919_210238_0000.pdf
                  set a hard link
cp: cannot create hard link '/volume1/Dokumente/Michael/Rentenversicherung/2003-05-13_#Renteninformation#Rentenversicherung_20200919_210238_0000.pdf' to '/volume1/Scanner/Michael/temp_20200919_210238_0000_1600542318.pdf': Invalid cross-device link
              ? Adapt file date (Source: Source file)

Wenn ich in der Konfiguration "Im Zielordner behalten" auswähle wird die Datei in den Zielordner mit Tag in den Zielordner kopiert
Wenn ich in der Konfiguration "Ziel-PDF in Tagordner einsortieren" auswähle wird im Zielordner ein Ordner erstellt und die Datei dorthin kopiert.

Ich wollte eigentlich, dass nur die Dateien in welchen kein Tag gefunden wird im definierten Zielordner landen und der Rest in die entsprechend definierten Zielordner einsortiert wird.

Gruß Gergi
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.391
Punkte
234
Leerzeichen Minus Minus Leerzeichen
Das wird - wenn ich das Textfeld für die Tags nutze - zwischen jeden Tag geschrieben
Ob definierte Tags in der GUI oder externem File sollte in diesem Fall keinen Unterschied machen …
Das werde ich mir anschauen.
Im log kommt der Fehler das kein Hardlink erstellt werden kann.
Ist der Zielordner gemountet?
Zu diesem Fehler kommt es, wenn man volumeübergreifend linken möchte.
Das prüfe ich, indem ich den ersten Teil des Pfades vergleiche (hier ist beides /volume1 )
 

gergi

Benutzer
Mitglied seit
24. Jul 2020
Beiträge
10
Punkte für Reaktionen
1
Punkte
3
Ist der Zielordner gemountet?
Zu diesem Fehler kommt es, wenn man volumeübergreifend linken möchte.
Das prüfe ich, indem ich den ersten Teil des Pfades vergleiche (hier ist beides /volume1 )

Was meinst du mit gemountet? Welche Ordner?
Beide Ordner sind auf dem gleichen Volume. Nur gehen die Dateien vom Scanner in einen anderen Ordner wie dort wo die Ablage sein soll.

Gruß Gergi
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat