tesseract-ocr missing

Status
Für weitere Antworten geschlossen.

homar

Benutzer
Mitglied seit
29. Jan 2009
Beiträge
20
Punkte für Reaktionen
0
Punkte
0
Hi,

habe Pyload installiert und am Laufen, soweit so gut.
Probleme bereiten mir allerdings die Captchas - vor jedem einzelnen Part wird aufgefordert diese einzugeben.

Nun habe ich mir das Setup nochmals genauer angesehen, bei der Installation von pyLoad wurde "tesseract-ocr" bzw. "tesseract-ocr-lang-eng" vermisst.

Habe ein DS107+, lt. IPKG Wiki sollte ich hier fündig werden - sind aber nicht vorhanden...

Gibt es eine Alternative/Workaround - ansonsten wäre pyLoad für Free User mit DS107+ leider wie es scheint unbrauchbar..? :(
 

Dan97

Benutzer
Mitglied seit
14. Okt 2008
Beiträge
159
Punkte für Reaktionen
0
Punkte
16
Hast Du das inzwischen hinbekommen?
Ich habe auch eine DS 107+ und kann "tesseract-ocr" bzw. "tesseract-ocr-lang-eng" auch nicht installieren!
Für eine Hilfe wäre ich auch dankbar.
 

homar

Benutzer
Mitglied seit
29. Jan 2009
Beiträge
20
Punkte für Reaktionen
0
Punkte
0
jein ...
Bin zwar einen Schritt weiter, scheitere aber trotzdem:
Ich habe mir die tesseract sourcen runtergeladen und direkt auf der 107er kompiliert - kann captchas auf kommandozeilenebene auslesen, soweit so gut.

Auch pyload meint beim Setup nun, dass tesseract richtig installiert ist und meint OK.
Trotzdem habe ich weiterhin das Problem, dass sobald eine Captchaaufforderung kommt, dass tesseract nicht in die Presche springt und das übernimmt.

Wollte meine Vorgehensweise bei Gelegenheit mal posten/dokumentieren - hatte in letzter Zeit aber keine Zeit gefunden..
 

Tandu

Benutzer
Mitglied seit
04. Jul 2007
Beiträge
86
Punkte für Reaktionen
0
Punkte
6
Habe gleiches Problem,warum wurde das Paket den entfernt?

Gruß Thomas
 

Tandu

Benutzer
Mitglied seit
04. Jul 2007
Beiträge
86
Punkte für Reaktionen
0
Punkte
6
Wenn jemand eine Anfängeranleitung hat. Wie ich es nachinstallieren kann wäre super. Habe im Netz nix gefunden für die ds107+

Gruss Thomas
 

homar

Benutzer
Mitglied seit
29. Jan 2009
Beiträge
20
Punkte für Reaktionen
0
Punkte
0
Anbei eine Kurzanleitung, wie man tesseract nachinstallieren kann.
Ich hatte das eine od. andere Problem beim kompilieren, an die ich mich jetzt allerdings nicht mehr adhoc erinnere (ist schon ein zeitl her)..
, aber eventuell kann ich weiterhelfen wenn ich die Fehlermeldung von euch sehe und diese Anleitung vervollständigen...

Eins noch vorweg: Bin drauf gekommen, dass die Aktion (zumindest f. die Hoster die ich verwende) wenig Sinn hatte,
die meisten (zb UploadedTo, FreakShare) verwenden sogenannte ReCaptchas, die bislang kaum knackbar sind (bzw. ohne weiteres nicht von
tesseract ausgelesen werden können) :(

  1. Tesseract Download/Install
    - tesseract downloaden von:
    http://code.google.com/p/tesseract-ocr/downloads/list
    -> tesseract-2.04.tar.gz

    - kopieren auf NAS, zb /volume1/install

    - ssh auf NAS öffen, mit root user

    - Archiv extrahieren mittels (vorher ins Verzeichnis wechseln)
    Rich (BBCode):
    tar -xzvf tesseract-2.04.tar.gz
  2. Tesseract Kompilieren

    - gcc/make nachinstallieren falls nicht schon vorhanden
    Rich (BBCode):
    ipkg install gcc
    ipkg install make
    - kompilieren
    Rich (BBCode):
    ./configure
    make
    make install
  3. Testing
    -
    Rich (BBCode):
    tesseract /volume1/install/tesseract-2.04/eurotext.tif test
    -> sollte eine datei test.txt erstellen, die folgenden Text enthält:
    Rich (BBCode):
    The (quick) [brown] {fox} jumps!
        Over the $43,456.78 <lazy> #90 dog
        & duck/goose, as 12.5% of E-mail
        from aspammer@website.com is spam.
        Der ,,schnelle" braune Fuchs springt
        uber den faulen Hund. Le renard brun
        <<rapide» saute par-dessus le chien
        paresseux. La volpe marrone rapida
        salta sopra il cane pigro. El zorro
        marron répido salta sobre el perro
        perezoso. A raposa marrom répida
        salta sobre o 050 preguicoso.
    - pyLoad Setup erneut durchlaufen lassen mit
    Rich (BBCode):
    python /opt/pyload/pyLoadCore.py -s
    -> bei tesseract-ocr sollte nun ein OK stehen
 

goetz

Super-Moderator
Teammitglied
Sehr erfahren
Mitglied seit
18. Mrz 2009
Beiträge
14.151
Punkte für Reaktionen
397
Punkte
393
Hallo,
wenn selber compilieren dann gleich mit
Rich (BBCode):
./configure --prefix=/opt
dann landet alles bei make install auch unterhalb von /opt.
Ich habe es vorhin mal auf der DS-107+ durch den gcc gejagt:
tesseract-2.04_arm.tgz
tesseract-2.00.eng.tar.gz

Installation:
die beiden Pakete in /volume1/public speichern
Rich (BBCode):
cd /
tar -xvzf /volume1/public/tesseract-2.04_arm.tgz
cd /opt/share
tar -xvzf /volume1/public/tesseract-2.00.eng.tar.gz
ohne Gewähr.

Gruß Götz
 

Tandu

Benutzer
Mitglied seit
04. Jul 2007
Beiträge
86
Punkte für Reaktionen
0
Punkte
6
Ich danke euch, hat alles bestens ohne Probleme geklappt.

Gruß Thomas
 

ralftopas

Benutzer
Mitglied seit
04. Feb 2009
Beiträge
84
Punkte für Reaktionen
0
Punkte
0
Salü,

nachdem ich tesseract mit eurer Hilfe installiert habe, kommt bei mir leider folgende Fehlermeldung beim Test:

DS207Plus> tesseract /volume2/upload/tesseract-2.04/eurotext.tif test
tesseract: error while loading shared libraries: libtiff.so.3: cannot open shared object file: No such file or directory

Kann mir evtl. jemand weiterhelfen?

Vielen Dank !
 

Blain

Benutzer
Mitglied seit
06. Jan 2011
Beiträge
80
Punkte für Reaktionen
14
Punkte
8

Dan97

Benutzer
Mitglied seit
14. Okt 2008
Beiträge
159
Punkte für Reaktionen
0
Punkte
16
Ich habe es gemäss der Anleitung von goetz gemacht und es hat funktioniert!
 

Melissa

Benutzer
Mitglied seit
26. Jun 2009
Beiträge
65
Punkte für Reaktionen
0
Punkte
0
@goetz: kannst du die Dateien nochmal zur Verfügung stellen? Sind nicht mehr vorhanden..
 

Dan97

Benutzer
Mitglied seit
14. Okt 2008
Beiträge
159
Punkte für Reaktionen
0
Punkte
16
Hier im Anhang sind beide Dateien. Endung pdf entfernen und RAR-Archiv auspacken.
 

Anhänge

  • tesseract-2.04_arm.rar.pdf
    1,2 MB · Aufrufe: 110

Craxx

Benutzer
Mitglied seit
18. Apr 2008
Beiträge
29
Punkte für Reaktionen
0
Punkte
1
Hy,
ich bekomme leider beim Entpacken der beiden Dateien in tesseract-2.04_arm.rar auf der 107+ folgende Fehler:
gzip: stdin: unexpected end of file

Wat nu?
Herzlichen Dank
Craxx;)
 
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat