synOCR synOCR - GUI für OCRmyPDF

Ponti

Benutzer
Mitglied seit
11. Nov 2023
Beiträge
74
Punkte für Reaktionen
8
Punkte
8
Gut bei letzterem wird das abfotografieren bei vielen Seiten irgendwann mühseelig...
Hat man dann bei paperless-ngx nur "innerhalb" des Dockers/Containers Zugriff auf die Daten, oder kann man die dort verwalteten Dokumente auch per SMB abrufen?
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.200
Punkte für Reaktionen
1.024
Punkte
224
Wenn du die Daten außerhalb des Containers „mappst“ (also speicherst) – was ohnehin bei jedem Container empfohlen wird – dann hast du auch direkten Zugriff über jeden Dateidienst auf diese und Dateien, den du eingerichtet hast.

Dann kannst du auch einzelne Ordner heraus kopieren, wenn du beispielsweise alle deine Unterlagen für die Steuer immer mit dem Speicherpfad /Steuer/JJJJ speicherst. Die Weboberfläche dient der leichteren Suche und Verwaltung der in der Datenbank gespeicherten Daten. Schau dir gerne auch mal den Sammelthread zum Thema (Link ist in meiner Signatur) an, dieser Faden hier hat ja eigentlich ein anderes Thema 😉
 

racinggoat

Benutzer
Mitglied seit
30. Dez 2014
Beiträge
211
Punkte für Reaktionen
45
Punkte
28
Hab mich lange nicht mit "meinem" Vorhaben - Automatisierung beschäftigt. Vieles war (gefühlt) wichtiger.

Nun hatte ich doch ein paar Minuten...
Die Scans sind ja "ocr-behandelt", die Stichworte lassen sich in den einzelnen PDF auch markieren. Jetzt die (dusselige?!) Frage: Wie suche ich - möglichst ohne viel Aufwand - nach einem Begriff in einem pdf. Sprich auf Ebenen des DS, oder von Seiten des Betriebssystems (Win, Ubuntu), so dass von einem Startpunkt nach dem Stichwort auch in untergeordneten Ordnern (aber trotzdem ordnerübergreifend) gesucht wird. Ich hoffe, dass ich verstanden werde (Hat vielleicht auch nicht mit dem Thema direkt zu tun).
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Auf DSM-Ebene mit Universal Search (Ordner müssen in den Indexeinstellungen auch "Dokument" abdecken).
macOS kann auch über SMB auf den Index von Universal Search zugreifen. Ob es das für andere OS gibt, weiß ich nicht.
 
  • Like
Reaktionen: racinggoat

gunfran

Benutzer
Mitglied seit
25. Nov 2014
Beiträge
31
Punkte für Reaktionen
17
Punkte
58
Unter Windows behelfe ich mir damit mein Dokumentenarchiv mittels Synology Drive mit Rechner zu synchen. Dann kann ich unter Windows in der Suche die PDFs durchsuchen, auch rekursiv.

Das kann ich insofern problemlos machen da mein Dokumentenarchiv überschaubar groß ist.

Aber zumindest ist es meines Wissens nicht ganz so konfortabel möglich wie bei Apple, der auch in der Freigabe direkt in den PDFs zu suchen.
 
  • Like
Reaktionen: geimist

Ponti

Benutzer
Mitglied seit
11. Nov 2023
Beiträge
74
Punkte für Reaktionen
8
Punkte
8
Kurze Frage zu macOS auch über SMB - muss man dafür das erstellen der OS-Datein (.DS-store-Datein) zulassen? Habe das immer deaktiviert...da es dann von windows-systemem aus schrecklich zugespammt aussieht....
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Gerade mal getestet: In dem Verzeichnis mit dem erfolgreichen Test gibt es keine .DS-store Datei.
Aber nur die Suche im Finder kann auf den Index von Universal Search zugreifen; die Systemsuche Spotlight nicht.
 

Schlepperpaule

Benutzer
Mitglied seit
23. Sep 2021
Beiträge
8
Punkte für Reaktionen
1
Punkte
3
Suchmuster Quelldateinamen mit variablen Zeichen?

Ich habe einen Drucker, der beim Scannen und Speichern direkt in den Inputordner auf meiner Synology immer die Dokumentennummer hinter den von mir vorgegebenen Standardbegriff setzt. Dadurch sehen die Dateinamen z.B. so aus „OCR-80345.pdf“, wobei das „OCR-„ bewirkt, dass SynOCR ein Profil mit erzwungener Texterkennung nutzt.
Meine Frage (und entschuldigt bitte, falls diese hier schon mal gestellt wurde, aber bei >200 Seiten verliert man etwas den Überblick) ist daher:
Kann ich in SynOCR einstellen, dass genau wie das Suchmuster im Quelldateinamen eine definierte Anzahl wildcard-Zeichen ebenfalls im Ausgabenamen entfernt wird?

Im oben beschriebenen Fall also z.B. ein Suchmuster „OCR-*****“, dass in der Ausgabe komplett ersetzt wird, egal, ob nach “OCR-„ die Zeichenfolge „80345“ oder z.B. „abcdef“ steht.
Das wäre richtig cool, denn laut Herstellter lässt sich das Anfügen der Dokumentennummer nicht unterbinden.

Vielen Dank schon mal!
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Das würde derzeit nur über ein Postscript funktionieren (also ein Shellkommando, welches nach jeder Datei ausgeführt wird). Das funktioniert wiederum nur in Verbindung mit einer YAML-Regeldatei. Da es in deinem Fall offensichtlich bei jeder Datei ausgeführt werden soll, wäre es passend eine global geltende Regel zu erstellen, d.h. eine Regel, die immer greift.

YAML:
globalrule:
    postscript: mv "${output}" "${output%/*}/$(echo "${output##*/}" | sed 's/ /_/g')"
    condition: any
    subrules:
    - searchstring: .*
      searchtyp: contains
      isRegEx: true

Erklärung:
${output##*/} = Dateiname
${output%/*} = Pfad

Diese Regel greift bei jedem Dokument, welches mindestens 1 Zeichen enthält.
Im Beispiel werden alle Leerzeichen im Dateinamen durch Unterstriche ersetzt. Für deinen Fall müsstest du dir etwas mit Regex bauen.

Es gibt noch eine Einschränkung:
Wenn bei einem Dokument mehrere Regeln mit unterschiedlichen Zielverzeichnissen greifen, wird nur das letzte entsprechend behandelt, da die Variable $output in einer Schleife immer wieder ersetzt wird, das Postscript aber erst am Ende ausgeführt wird.
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
883
Punkte für Reaktionen
185
Punkte
63
Wie Stephan schon andeutet geht dies über eine RegEx. Was ich gerade nicht verstehe ist, dass dann doch alle docs OCR- lauten würden, oder habe ich was verpasst ?

Beim Durchlauf in synOCR ist es doch dann egal wie der Name war, es wird halt mittels Regel umbenannt.

Karsten
 

Schlepperpaule

Benutzer
Mitglied seit
23. Sep 2021
Beiträge
8
Punkte für Reaktionen
1
Punkte
3
Moin Stephan, Moin Struppix,

Vielen Dank für Eure schnellen Antworten. Werde ich mal ausprobieren.

@Struppix das ist richtig, bei allen Dateien würde dann das Suchmuster entfernt und die Dateien entsprechen der Regeln umbenannt. Mein Problem ist/war eben, dass der @#!-Drucker immer die Dokumentennummer hinten anhängt, die sich ja eben mit jedem Dokument ändert und somit nicht aus dem Namen herausgelöscht wurde.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Der ursprüngliche Dateiname liegt in der Variable §tit, die du in der Umbenennungssyntax ja auch weglassen kannst.
 
  • Like
Reaktionen: Struppix

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Brauche Mal einen Tipp von euch und zwar bezüglich der Option postscript in der YAML-Datei.

Ich habe in einer meiner Regel ein Shell-Skript bei postscript: angegeben, um die final verarbeiteten PDF-Dateien mittels Linux Kommando cp, aus dem synOCR-Ausgabeverzeichnis, an eine andere Stelle zu kopieren. Dies momentan testweise, aber es soll später was "Vollwertiges" daraus werden.

So sieht das Shell-Skript derzeit aus:
Bash:
mkdir -p /volume1/Share/Michael/Scanner
cp -p -r /volume1/Scanner/Ausgabe/Pensionskasse/. /volume1/Share/Michael/Scanner
cp -p -r /volume1/Scanner/Ausgabe/Cites/. /volume1/Share/Michael/Scanner
cp -p -r /volume1/Scanner/Ausgabe/Versicherung/. /volume1/Share/Michael/Scanner

Mein Problem ist nun, dass manche der in der Skript-Datei verwendeten Zielverzeichnisse sich nicht auf derjenigen Diskstation befinden, auf denen synOCR läuft, sondern auf einer zweiten, aber im lokalen Netzwerk.

Meine Frage ist nun dahingehend: Hat jemand eine ähnliche Konstellation am Laufen? Wie ist das Ziel beim cp-Kommando anzusprechen, wenn dort eine zweite DS als Ziel angegeben werden soll?

Ich habe im Internet als ersten Hinweise sog. NFS-Freigaben gefunden, wo und wie muss ich die einrichten, um als Ziel die zweite DS zu erreichen? Oder existiert ggf. eine ganz andere Möglichkeit?

Danke,
Michael
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Guck dir mal den Befehl scp (secure cp) an. An der Gegenstelle muss ssh aktiviert sein.
 
  • Like
Reaktionen: Yippie

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
643
Punkte für Reaktionen
54
Punkte
54
Danke für den Tipp, funktioniert wunderbar. Jetzt muss ich nur noch einen sauberen Weg finden, damit ich dazu nicht immer den Admin-User verwenden muss, um auf alle gewünschten Zielverzeichnisse zugreifen zu können.

Denn dummerweise kann dem scp Befehl erstmal kein Kennwort mitgegeben werden und ssh-keys möchte ich auch nicht konfigurieren. Es gäbe da noch den Befehl sshpass, den die DS jedoch nicht zur Verfügung stellt.
 

lil-ac

Benutzer
Mitglied seit
14. Feb 2013
Beiträge
39
Punkte für Reaktionen
0
Punkte
6
Guten Tag,

könnte man für die .yaml Datei, nicht eine Art "Generator" verwenden, wo man alles einträgt und die Seite/Tool schmeißt dann eine komplette .yaml Datei aus? Würde die Erstellung um einiges vereinfachen. Vielen Dank schon mal.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat