pdf-Scan to Folder (auf die Synology) und dann Texterkennung mit OCR durch Synology

Status
Für weitere Antworten geschlossen.

Blain

Benutzer
Mitglied seit
06. Jan 2011
Beiträge
80
Punkte für Reaktionen
14
Punkte
8
Servus zusammen,

ich möchte mir einen Scanner zulegen, der über das Netzwerk die eingescannte Datei auf die Synology ablegt. Dann bräuchte ich eine Applikation für die Synology, welche jede neu eingegangene Datei checkt und per OCR eine Texterkennung drüberlaufen lässt. Gibts sowas ? Falls nicht: Des wäre doch mal ein cooles Projekt. Vielleicht kann man ja irgendwie irgendwas anpassen was es bereits für Linux gibt ?!!?
 

jahlives

Benutzer
Mitglied seit
19. Aug 2008
Beiträge
18.275
Punkte für Reaktionen
4
Punkte
0
kennst du ipkg? guck mal ob es das ipkg Paket tesseract-ocr gibt. Ich meine das im Zusammenhang mit pyload hier im Forum mal gelesen zu haben
 

_TokTok_

Benutzer
Mitglied seit
18. Nov 2007
Beiträge
1.310
Punkte für Reaktionen
0
Punkte
0
Sowas wär echt fein. tesseract kann nur mit tiff´s umgehen. Also müsste man aus dem pdf (was mit sicherheit mal ein tiff war) wieder ein tiff machen, das ocr´en und dann daraus ein pdf machen. Hier wird sowas beschrieben:http://elmargol.wordpress.com/2011/...df-file-and-ocr-using-tesseract-on-archlinux/
Keine Ahnung ob alle Abhängigkeiten auf der DS installiert sind oder per ipkg installiert werden können. Ein Versuch wär´s mal wert!
 

itari

Benutzer
Mitglied seit
15. Mai 2008
Beiträge
21.900
Punkte für Reaktionen
14
Punkte
0
Das mit dem OCRen wird so erbämlich langsam sein, dass man daran keinen Spaß haben wird. Ich hatte mal eine Lösung auf meine Acer-WHS (Atom) installiert und wieder verworfen.

Itari
 

Blain

Benutzer
Mitglied seit
06. Jan 2011
Beiträge
80
Punkte für Reaktionen
14
Punkte
8
Also ich habs grad mit dieser Anleitung versucht, bin aber mittendrin dann steckengeblieben:

http://www.synology-forum.de/showthread.html?16698-tesseract-ocr-missing

Mal schauen wie es weitergeht.

Eine wichtige Frage: Cool wäre es, wenn die OCR erkennung das PDF als solches bearbeitet und praktisch den Text als Layer über das Bild drüberlegt. So dass man eine pdf-Datei hat, in welcher man den Text markieren, cmd-c oder mit Spotlight durchsuchen kann (also kein ein paralleles Text-Dokument zum Grafik-pdf). Wisst ihr was ich mein. Aber sowas scheints in der Linux Szene nicht so zu geben. Auf windows können das unter anderem Adobe oder der ABBYY FineReader....
 

wagawaga

Benutzer
Mitglied seit
13. Mrz 2012
Beiträge
18
Punkte für Reaktionen
0
Punkte
1
WatchOCR

Dieses Thema treibt mich seit einiger Zeit auch um. Scannen über LAN-Scanner direkt in einen Folder auf der Syno, dann automatisch OCR als Text-searchable PDF-Image und verschieben in einen anderen Folder.

Mit meinen bisherigen Tesseract-Experimenten bin ich nicht weiter gekommen.

Nun habe ich folgende Software-Lösung gefunden, die nach der Spezifikation exakt das tut, was ich mir wünsche. Es handelt sich um die Software WatchOCR, die unter Ubuntu läuft. Also doch sicherlich irgendwie auch auf der Syno. Man kann das Ganze als .deb herunterladen. Nur, wie bekomme ich das auf der Syno installiert? Hat das schon mal jemand ausprobiert?
 

wagawaga

Benutzer
Mitglied seit
13. Mrz 2012
Beiträge
18
Punkte für Reaktionen
0
Punkte
1
Bin inzwischen etwas schlauer. WatchOCR ist als Projekt leider eingestellt worden und wird nicht mehr weiterentwickelt.

Im Test mit einem runtergeladenen Knoppix Live System tat es genau das, was ich mir wünschte. Einen Folder überwachen. Frische PDFs abholen, OCRen und wieder als PDF in einem anderen Ordner abspeichern. Eigentlich perfekt, wenn da nicht der Verbrauch des Notebooks wäre....
 

jahlives

Benutzer
Mitglied seit
19. Aug 2008
Beiträge
18.275
Punkte für Reaktionen
4
Punkte
0
wegen dem deb File könntest du auf einer DS allenfalls ein Debian Chroot probieren. Dazu haben wir was im Wiki. Müsste klappen wenn das deb File keine Kernelsachen voraussetzt.
 

mp_999

Benutzer
Mitglied seit
04. Aug 2009
Beiträge
2
Punkte für Reaktionen
0
Punkte
0
Gibt es schon neue Erkenntnisse zum Thema WatchOCR auf der DS installieren? Habe mal versucht mich mit dem Thema Debian zu beschäftigen, aber glaube nicht das ich eine solche Image erstellen kann. Installieren auf der DS würde ich mir aber zutrauen! Kann vielleicht jemand eine solche Datei erstellen, welche ich dann in der DS installieren kann?

Grüße
 

Tscherno

Benutzer
Mitglied seit
29. Mrz 2008
Beiträge
42
Punkte für Reaktionen
0
Punkte
0
Ich habe es mir seit einigerzeit so gelöst:
- Scan2FTP in eine Freigabe
- Auf der Syno läuft ein Perl-Script das den Ordner überwacht und bei neuen Dateien sinnvoll umbenennt, in die Dropbox hochlädt und das Original in ein Archiv schiebt
- Auf meinem PC (natürlich nur wenn er grade an ist) läuft Abby Hot Folder der den Dropbox-Eingangsordner überwacht
- OCR und dann verschieben in einen "Unsortiert" Ordner

Scanergebnis mit Abby ist 1a.
 

saturus

Benutzer
Mitglied seit
26. Nov 2011
Beiträge
60
Punkte für Reaktionen
0
Punkte
6
Hallo Tscherno, was für einen Scanner benutzt du für Scan2FTP? Ich habe einen Canon MX870. Dieser hat zwar LAN/WLAN, möchte aber unbedingt ein Windows-PC als Ziel oder alternativ eingesetzte Speicherkarten. Beides finde ich nicht so gut.
 

blinddark

Benutzer
Mitglied seit
03. Jan 2013
Beiträge
1.386
Punkte für Reaktionen
34
Punkte
68
Eventuell gibt es ja auch eine OCR-Lösung über Docker?
 

1sthandy

Benutzer
Mitglied seit
27. Feb 2011
Beiträge
245
Punkte für Reaktionen
0
Punkte
16
Hi, ich mach das jetzt schon etwas länger für Seeddms

installiert ist imagemagick

selber kompilieren mußte ich tesseract

so sieht mein Script aus:

Rich (BBCode):
#!/opt/bin/bash
# volltext.sh
for f in /volume1/public/00_Original/*.pdf; do /opt/bin/convert -density 240 "$f" cat output "${f%.*}.tif" &>/dev/null; mv "$f" /volume1/public/00_Original/abgeschlossen/; done;
for f in /volume1/public/00_Original/*.jpg; do /opt/bin/tesseract -l deu "$f" "$f.export" pdf; mv /volume1/public/00_Original/*.export.pdf /volume1/public/01_PDF/; mv "$f" /volume1/public/00_Original/abgeschlossen/; done;
for f in /volume1/public/00_Original/*.tif; do /opt/bin/tesseract -l deu "$f" "$f.export" pdf; mv /volume1/public/00_Original/*.export.pdf /volume1/public/01_PDF/; mv cat output "${f%.*}.tif" &>/dev/null /volume1/public/00_Original/abgeschlossen/; done;

ich erzeuge aus einer pdf wieder eine tiff und lasse dann tesseract drüberlaufen. Danach erstelle ich wieder eine PDF nur durchsuchbar oder ich scanne gleich als tiff ein.
Das Script entweder per Hand starten oder als cron einrichten.

Vielleicht nützt es als denkanstoß :cool:
 

sichler

Benutzer
Mitglied seit
10. Dez 2007
Beiträge
10
Punkte für Reaktionen
0
Punkte
1
Hallo zusammen

ich wärm mal diesen Thread wieder auf. Ich hab noch immer keine Lösung und von Linux verstehe ich leider gar nichts. Hat jemand schon was einfaches zum laufen gebracht. Oder kann mir jemand mit einer Schritt für Schritt anleitung weiterhelfen?

Gruss MArtin
 

sichler

Benutzer
Mitglied seit
10. Dez 2007
Beiträge
10
Punkte für Reaktionen
0
Punkte
1
Hallo zusammen

ich wärm mal diesen Thread wieder auf. Ich hab noch immer keine Lösung und von Linux verstehe ich leider gar nichts. Hat jemand schon was einfaches zum laufen gebracht. Oder kann mir jemand mit einer Schritt für Schritt anleitung weiterhelfen?

Gruss MArtin

Das Thema ist für mich immer noch aktuell. Kann mir mittlerweile jemand weiterhelfen wär ja insbesondere mit Universal Search ne coole sache.

Gruss MArtin
 

stweiss

Benutzer
Mitglied seit
09. Jun 2017
Beiträge
34
Punkte für Reaktionen
0
Punkte
0
Ich war auch auf der Suche und habe mir letztendlich selber etwas zusammengebaut, was seit einer Weile ganz gut den Dienst auf meiner DS415+ verrichtet.
Das ganze habe ich FileBasedMiniDMS getauft und ist hier zu finden: https://github.com/stweiss/FileBasedMiniDMS

Kurz zusammengefasst kann das Script:
- OCR über pdf's laufen lassen
- Anhand von erweiterbaren Regeln in der config.php die PDF's hoffentlich halbwegs sinnvoll umbenennen (inkl. hashtags)
- Und anhand der Hashtags eine Ordnerstruktur erstellen und die PDF's per hardlink dort einsortieren

Die Schritte kann man auch einzeln deaktivieren, falls man möchte.
Mehr Details gibt es auf der Github-Seite.

Bitte um Rückmeldung, falls das jemand tatsächlich nutz ;)
 

Andy+

Benutzer
Sehr erfahren
Mitglied seit
25. Jan 2016
Beiträge
5.349
Punkte für Reaktionen
473
Punkte
189
Das sieht ganz schlüssig aus. Und wie ist da der Scanner angebunden?
 

adahmen

Benutzer
Mitglied seit
12. Okt 2009
Beiträge
561
Punkte für Reaktionen
11
Punkte
38
Ich bin echt begeistert !!!!!

Ich bin schon seit langer Zeit auf der Suche nach einer einfachen OCR-Lösung ... und hier ist sie.
Auch ich habe eine 415+ ... und auch ich scanne meine Unterlagen seit langer Zeit. In Summe sind es inzwischen schon über 7.000 Dokumente.

Als Scanner nutze ich einen Brother MFC-9340CDW, der auch Duplex scannen kann. Die Dokumente werden direkt per FTP auf die Synology abgelegt.
Am genannten Docker-Image hatte ich mich auch schon versucht ... aber irgendwie hat es nie wirklich gut funktioniert.
Nun habe ich diese Lösung mal mit 10 Dokumenten ausprobiert und --> es geht einwandfrei.

Primär werde ich den OCR-Teil nutzen ... das taggen werde ich mir mal ansehen ... aber meine eigene Ordner-Struktur werde ich behalten und somit den dritten Teil nicht nutzen.

Noch eine Frage: Im Readme steht "For Automatic rename: make sure that pdftotext is available.". Was ist genau damit gemeint? Ich habe nur das Docker-Image installiert sowie die Dateien aus dem GIT ... und soweit sieht alles okay aus.

Aber bei großen Dokumenten ist die 415 schon kräftig am Arbeiten :)
 

stweiss

Benutzer
Mitglied seit
09. Jun 2017
Beiträge
34
Punkte für Reaktionen
0
Punkte
0
Das sieht ganz schlüssig aus. Und wie ist da der Scanner angebunden?
Input für das Skript sind pdf Dateien. In meinem Fall erzeugt der Scanner direkt PDF's und legt sie per SMB/CIFS direkt auf die Diskstation in den $inboxfolder. Bei mir heißen die Dateien dann Scan.pdf, Scan0001.pdf, Scan0002.pdf, ...

Das Skript läuft dann stündlich drüber.

Dabei werden im ersten Schritt ($doOCR == true) alle Dateien, die mit Scan (siehe $matchWithoutOCR) beginnen, geOCR'd. Dabei erhält das neue PDF den Namen OCR_Scan.pdf (Es kommt also der $OCRPrefix vorne dran)

Wenn $doRenameAfterOCR = true ist, wird im Anschluss versucht für alle Dateien, die mit "OCR_" ($OCRPrefix) beginnen, einen besseren Dateinamen zu finden. Hierbei wird die erste Seite des Scans mithilfe von pdftotext eingelesen und darin nach verschiedenen Dingen gesucht:
  1. Es wird nach einem Datum gesucht. Wird keines gefunden, wird das aktuelle Datum verwendet.
  2. Es wird gesucht, ob ein Eintrag in $renamerules passt. Der erste passende Treffer wird als Name genommen. (Bsp: "Sparkasse&Depot"=>"Sparkasse Aktiendepot", wenn also die Wörter Sparkasse und Depot gefunden werden, wird der Name "Sparkasse Aktiendepot" verwendet.)
  3. Es wird gesucht, ob Einträge in $tagrules passen. Jeder Eintrag, der hier "matched" erzeugt ein hashtag, das angehängt wird. (Bsp: "#stefan" => "Stefan*Weiss,Weiss*Stefan", wenn also mein Name in egal welcher Reihenfolge in einer Zeile gefunden wird.)
Die Datei OCR_Scan.pdf wird dann also umbenannt nach sowas: 2017-06-09 Sparkasse Aktiendepot #stefan.pdf

Alles bisherige läuft im $inboxfolder ab. Man kann dann also selber schauen, ob der Name passt und ggf. nochmal umbenennen. An dieser Stelle empfehle ich, das PDF in einen anderen Ordner zu verschieben. Wenn man jetzt noch das Tagging ($doTagging = true) verwenden will, muss man selber die fertigen Dateien ins $archivefolder verschieben. Für alle Dateien darin erzeugt das Script hashtag-Ordner unterhalb von $tagsfolder und legt dort "Verknüpfungen" (in Form von hardlinks) zu den Dateien im $archivefolder an.


Noch eine Frage: Im Readme steht "For Automatic rename: make sure that pdftotext is available.". Was ist genau damit gemeint?

Damit ist der Schritt $doRenameAfterOCR gemeint (siehe oben).
 
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat