hocr2pdf auf ds411+II?

donpedro · 09. Mai 2013

Guten Abend,

nach einem Tag installationsaufwand, bis ich endlich tesseract in der aktuellen version installiert hatte, stelle ich nun fest, dass "hocr2pdf" weder als ipkd paket verfügbar ist und ich offensichtlich zu deppert bin es zu installieren.
hat das schonmal jemand geschafft?

alternativ nehme ich auch gerne tipps, welches andere tool mir die hocr-datei mit dem pdf zusammen bringt, war leider nicht erfolgreich bisher..

Danke für eure hilfe!

donpedro

ps: den source von hocr2pdf gibts hier..
http://www.exactcode.com/site/open_source/exactimage/releases/

adahmen · 13. Okt 2013

Hallo,

bist Du hier weitergekommen?
Ich scanne relativ viele Dokumente ein und würde auch gerne eine OCR auf meine Synology ans laufen bekommen ....

In der aktuellen CT ist ab Seite 168 einiges zum Thema Linux und OCR zu finden ...

donpedro · 13. Okt 2013

Hi

OCR ist einfach, tessaract kann man entweder per ipkg installieren oder selbst compilieren.

Das dann wieder zu einem PDF zu verwandeln ging dann mit einem Perl Script was ich gefunden habe. URL habe ich aber gerade nicht zur Hand. Wenn du Interesse hast melde dich einfach nochmal..

Viel Glück!

geimist · 14. Okt 2013

donpedro schrieb:
… URL habe ich aber gerade nicht zur Hand. Wenn du Interesse hast melde dich einfach nochmal..

Hier gäbe es noch mehr, die das interessieren würde …

blinddark · 14. Okt 2013

ich bin auch nicht abgeneigt. ;-)

donpedro · 20. Okt 2013

Ok, kurze Anleitung ohne Gewähr auf Vollständigkeit oder Nachvollziehbarkeit.

1. ipkg installieren
2. installieren von gcc, make, python2.7, ghostscript über ipkg
3. runterladen von tesserct 3.0.2 (ihr braucht die hocr option, die gibts erst seit 3.0)
4. compilieren von tesseract (ging bei mir erst, nachdem ich im Makefile den parameter AM_CPPFLAGS angepasst habe: "AM_CPPFLAGS = -O3 -DNDEBUG -march=i486"). ich habe sonst auch noch was geändert, weiss aber nichtmehr was.. sollte so klappen hoffentlich... ihr schafft das

5. runterladen des python scripts von http://virantha.com/2013/07/22/pyocr-a-python-script-for-running-free-ocr-on-your-pdfs/
6. Dem Mann Danke Sagen, der das geschrieben hat (GODMODE!!!)
7. Skript starten mit python2.7 pypdfocr.py <dokument.pdf>

ich habe dem ganzen kram auch noch das deutsche sprachpaket von tesseract verpasst und die parameter entsprechend modifiziert -- muss halt jeder selbst wissen.

viel glück!

Molt · 15. Jan 2014

Wie müsste ich das Skript anpassen, um es für meinen ARM-Prozessor der 212j zu kompilieren?

Kann mir da jemand mit helfen?

Molt · 15. Jan 2014

Moin Kollegen,

ich wäre wirklich froh, wenn sich mir einer erbarmt - ich komm einfach nicht klar.

Ich habe mir den tesseract source auf die DS gezogen, habe gcc und automake installiert, habe aber nichtmal ein richtiges makefile. Es gibt das makefile.am und das makefile.in, wobei das letztere offenbar aus dem ersteren generiert wurde. Entferne ich allerdings das .in, kommt die Meldung, dass in Zeile 15 ein seperator fehler aufgetreten sei.

Nutze ich die Anleitung der tesseract Seite und führe die autoconfig aus, bekomme ich die Meldung, dass er aclocal nicht finden kann. Das wurde allerdings mit ipkg install automake installiert und es gibt auch eine aclocal-1.12 in opt\bin

Wie ihr seht, frage ich nicht einfach nur, sondern habe auch schon viel rumprobiert - wohl leider nur völlig planlos ;-(

Molt · 18. Jan 2014

Ach, kommt schon...irgendjemand hier muss sich doch mit Linux auskennen?!

Kann mir denn jemand sagen, wo ich Hilfe bekommen kann oder ist meine Frage zu blöd? Ich würde das echt gerne zum Laufen bekommen und habe keinen Schimmer was ich noch probieren/lesen soll...

Struppix · 11. Apr 2014

Hi Molt,

bist Du weiter gekommen oder nicht. Alles lesenswerte solltes Du in der der README und INSTALL finden.
Ich habe die Woche das Paket für meine 411+ crosscompilliert. Ich habe es noch nicht eingespielt und getestet (mache ich vermutlich am Wochende), aber die Compilierung lief.

Was Du schreibst, reicht leider nicht als Info. Bedenke bitte auch, daß Du alle angegebenen sources brauchst und Leptonica, welches erst zu compilieren wäre. Ohne dürfe laut Anleitung tesseract orc nicht laufen.

Deine Fehlermeldung läßt darauf schließen, daß Du nicht die richtige Befehlsreihenfolge nimmst, siehe zb: INSTALL und Du './autogen.sh' vergessen hast.

Gruß
Struppix

PS: Werde berichten ...

Struppix · 24. Apr 2014

Molt schrieb:
Moin Kollegen,

ich wäre wirklich froh, wenn sich mir einer erbarmt - ich komm einfach nicht klar.

Ich habe mir den tesseract source auf die DS gezogen, habe gcc und automake installiert, habe aber nichtmal ein richtiges makefile. Es gibt das makefile.am und das makefile.in, wobei das letztere offenbar aus dem ersteren generiert wurde. Entferne ich allerdings das .in, kommt die Meldung, dass in Zeile 15 ein seperator fehler aufgetreten sei.

Nutze ich die Anleitung der tesseract Seite und führe die autoconfig aus, bekomme ich die Meldung, dass er aclocal nicht finden kann. Das wurde allerdings mit ipkg install automake installiert und es gibt auch eine aclocal-1.12 in opt\bin

Wie ihr seht, frage ich nicht einfach nur, sondern habe auch schon viel rumprobiert - wohl leider nur völlig planlos ;-(

Hi Molt,

ich habe die Tage mal ein wenig getestet, und bin an der selben Stelle hängen geblieben.
Grundsätzlich kompiliere ich wenn es geht auf meiner alten Linux-Büchse. Dies funktioniert ohne Fehlermeldungen für tesseract-orc. Soweit so gut: dann wollte ich das mal auf der Syno nachvollziehen und stoße ich auf das gleiche Problem wie Du.

Nachdem ich beim stöbern Deinen Beitrag im linux.org Forum entdeckt habe

link, folgender Tip (so vermute ich zumindest):
Du hast die Installation von leptonica vergessen. Diese ist für tesseract-orc entscheidend. Ließ mal die readme.

Rich (BBCode):

wget http://www.leptonica.com/source/leptonica-1.70.tar.gz
tar -xzf leptonica-1.70.tar.gz
rm leptonica-1.70.tar.gz
cd leptonica-1.70.tar.gz
./configure --prefix=/usr/local --exec-prefix=/usr/local
make install

Die Abhängigkeiten nicht vergessen

Rich (BBCode):

ipkg install ggc autoconf automake libtool
ipkg install libpng libjpeg libtiff

Jetzt verate Du mir mal bitte, wie Du die automake 1.14 compiliert und installierst hast ? Ich bekomme die Fehlermeldung:

Rich (BBCode):

checking whether autoconf is installed... yes
checking whether autoconf works... no
configure: error: The installed version of autoconf does not work.
   Please check config.log for error messages before this one.

Gruß
Struppix

PS: Nachdem Du leptonica installiert hast, must Du leider tesseract-ocr nochmals kompilieren.

Struppix · 16. Mai 2014

tesseract-ocr, pypdfocr, hocr2pdf, pdfsandwich, exactimage DS411+

Hallo,

welch eine schwere Geburt. Nach einigen Tagen und viel probieren läuft tesseract-ocr nun.
Leider ist es mir jedoch bis heute nicht gelungen, pypdfocr ohne Fehler zum Laufen und / oder exactimage zu compilieren, hierzu später mehr.

Wenn man einigen Beiträgen hier Glauben schenken will, ist das ganz easy. Naja, ganz so sehe ich das nicht mehr ...

Vorweg: Wie gehabt alles ohne Gewähr !

Da automake1.12-1 per ipkg bei der compilierung von tesseract diverse Fehler brachte, brauchte ich eine neue Version automake.
Um diese compilieren zu können, mußte auch ein neues libtool her.
Grundsätzlich: Ich würde bei allem zuvor probieren, ob es vielleicht auch ohne geht (also direkt mal tesseract antesten).

1) Compilieren von tesseract-ocr

a) libtool-2.4.2 << neu compilieren

Es werden diverse zusätzliche ipkg Pakete benötigt (Ich bin nicht wirklich sicher, ob alle Pakete notwendig sind, zb. bei den perl's. Wer mag bitte testen.):

Rich (BBCode):

ipkg install ggc autoconf automake libtool binutils glib texinfo textutils diffutils
ipkg install perl perl-compress-zlib perl-html-parser perl-xml-parser perl-extutils-parsexs perl-html-tagset perl-net-ssleay perl-uri

=> Wir legen uns ein Verzeichnis an, indem wir die Compilierung machen. Laßt die Daten ruhig erst einmal drin stehen, da wir somit auch wieder deinstallieren können.

Rich (BBCode):

cd /volume1/public => Verzeichnis (ausfuerbar an Deinem Wunschort) vorher anlegen
wget http://mirror.switch.ch/ftp/mirror/gnu/libtool/libtool-2.4.2.tar.gz
tar -xzf libtool-2.4.2.tar.gz
rm libtool-2.4.2.tar.gz
cd libtool-2.4.2
./configure --prefix=/usr/local --exec-prefix=/usr/local
make

wir entfernen nun das libtool des ipkg

Rich (BBCode):

ipkg remove libtool

jetzt installieren wir die neue Version

Rich (BBCode):

make install

=> wer Interesse an den Ausgaben von ./configure, make install uä. zur Fehlersuche braucht einfach melden.

b) automake-1.14.1 << neu compilieren

Rich (BBCode):

cd /volume1/public
wget http://ftp.gnu.org/gnu/automake/automake-1.14.1.tar.gz
tar -xzf automake-1.14.1.tar.gz
rm automake-1.14.1.tar.gz
cd automake-1.14.1
./configure --prefix=/usr/local --exec-prefix=/usr/local
make

wir entfernen nun das automake des ipkg

Rich (BBCode):

ipkg remove automake

jetzt installieren wir auch hier die neue Version

Rich (BBCode):

make install

c) leptonica-1.70 << neu compilieren

leptonica wird zwingend für die neuen tesseract Versionen benötigt. Außerdem benötigen wir weitere ipkg Pakete:

Rich (BBCode):

ipkg install libpng libjpeg libtiff

Rich (BBCode):

cd /volume1/public
wget http://www.leptonica.com/source/leptonica-1.70.tar.gz
tar -xzf leptonica-1.70.tar.gz
rm leptonica-1.70.tar.gz
cd leptonica-1.70
./configure --prefix=/usr/local --exec-prefix=/usr/local
make
make install

d) tesseract-ocr_3.02.02 << neu compilieren

Es werden diverse zusätzliche ipkg Pakete benötigt:

Rich (BBCode):

ipkg install zlib svn libstdc++

Rich (BBCode):

cd /volume1/public
wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz
tar -xzf tesseract-ocr-3.02.02.tar.gz && rm tesseract-ocr-3.02.02.tar.gz && cd tesseract-ocr

Da ./configure und make bei mir diverse Fehler gebracht hat, habe ich zuvor ein paar Änderungen an den Konfigurationen machen müssen.

Wir legen einen link an

Rich (BBCode):

cd /usr/bin
ln -s /opt/bin/file

Wir ändern die configure.ac (Achtung: Einträge und Änderungen in Hochkommas 'XXXX')

Rich (BBCode):

cp configure.ac configure.ac.bak
vi configure.ac

=> Sollte nur notwendig sein mit automake ab 1.14
'AM_INIT_AUTOMAKE(subdir-objects)' ==> unter Zeile 'AM_INIT_AUTOMAKE' hinzufuegen ==> Die Variable subdir-objects ist in der neuen automake per standard aus.

=> dies für alle denke ich ...
'CXXFLAGS=${CXXFLAGS:-""}' ==> vor Zeile 'AC_CONFIG_MACRO_DIR([m4])'

=> gesucht wird die libstdc++.la => ich habe den source Eintrag nicht finden können. Vielleicht erbarmt sich jemand.
Fehlermeldung bei make in tesseract-ocr/ccutil
libtool: link: `/usr/local/i686-linux-gnu/i686-linux-gnu/lib/libstdc++.la' is not a valid libtool Archive

Rich (BBCode):

cd /usr/local
mkdir i686-linux-gnu && cd i686-linux-gnu
mkdir i686-linux-gnu && cd i686-linux-gnu
ln -s /opt/lib /usr/local/i686-linux-gnu/i686-linux-gnu/lib
ln -s /opt/bin /usr/local/i686-linux-gnu/i686-linux-gnu/bin

=> Es wird die falsche libpthread.so gezogen, so zumindest im WWW beschrieben, und funktioniert

Rich (BBCode):

cd /volume1/@optware/i686-linux-gnu/lib
mkdir libpthread_org_paketsicherung_DSM_5.0-4448
mv libpthread.so libpthread libpthread.so.0_libpthread_org_paketsicherung_DSM_5.0-4448
ln -s /lib/libpthread.so.0 libpthread.so.0
ln -s /lib/libpthread.so.0 libpthread.so

=> Jetzt konnte ich compilieren <<< bei i686 sollte euer Prozessor stehen.

Rich (BBCode):

./autogen.sh
./configure --prefix=/usr/local --exec-prefix=/usr/local CC='gcc -march=i686' CXX='g++ -march=i686'
make compiler=gcc CXXFLAGS="-march=i686"

=> Fehler ==> keine Lösung gefunden, die dieses Problem grundsätzlich löst
Fehlermeldung bei make bei tesseract-ocr/api => Suche nach ./api/$(top_srcdir)/api/.deps/tesseract-tesseractmain.Po ==> "Fehler" in api/Makefile Zeile 588

Rich (BBCode):

vi api/Makefile.am

Wir ändern von .. in ===> Variable falsch
'# tesseract_SOURCES = $(top_srcdir)/api/tesseractmain.cpp' in 'tesseract_SOURCES = tesseractmain.cpp'

Die Datei /api/$(top_srcdir)/api/.deps/tesseract-tesseractmain.Po muß danach noch nach /api/.deps kopiert werden !

=> Wir starten danach make einfach neu => insgesamt dauert make auf meiner 411+ über 20 Minuten => beim Neustart von make werden die "fertigen" Dateien übersprungen

Rich (BBCode):

make compiler=gcc CXXFLAGS="-march=i686"
make install

=> Sprachpakete hinzu installieren <<< jeh nach Wunsch

Rich (BBCode):

cd /volume1/public
wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.deu.tar.gz && wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.eng.tar.gz && wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.fra.tar.gz && tar -xzf tesseract-ocr-3.02.deu.tar.gz && tar -xzf tesseract-ocr-3.02.eng.tar.gz && tar -xzf tesseract-ocr-3.02.fra.tar.gz && rm *.gz && cp /volume1/public/tesseract-ocr/tessdata/*.traineddata  /usr/local/share/tessdata && chmod 755 /usr/local/share/tessdata/*.traineddata

=> jetzt testen wir tesseract

Rich (BBCode):

DiskStation> tesseract /volume1/download/_bilder_forum/bild_login.jpg /volume1/download/_Scan/test_1.txt -l deu
Tesseract Open Source OCR Engine v3.02.02 with Leptonica
DiskStation>

Es funktioniert. Im nächsten Beitrag dann zu dem was nicht tut ...

Struppix · 17. Mai 2014

tesseract-ocr, pypdfocr, hocr2pdf, pdfsandwich, exactimage DS411+

Nachdem tesseract-ocr mehr oder minder gute Texte ableitet, die Qualität überzeugt mich nicht wirklich was vielleicht an der Qualität der Vorlagen liegen mag, brauchen wir etwas um wieder pdf daraus zu zusammenzubauen.
Hierzu gibt es laut www einige Möglichkeiten, die in der Überschrift aufgeführt sind.

Ich habe versucht pypdfocr zum Laufen zu bringen, was leider nicht wirklich von Erfolg gekrönt war, da ich noch immer Fehlermeldungen und seltsamen Buchstabensalat bekomme. Da hab ich leider zu wenig Ahnung von ...

donpedro, Du schreibt ... "installieren von ... python2.7 ...ipkg".
Ich stelle mir dabei die Frage, wie das funktioniert hat ? Gibt es eine einfachere Variante des Scriptes ? Man benötigt diverse python Pakete, damit es funktioniert.

pypdfocr besteht aus einer Reihe von Scripten, die man hier bekommt.

http://virantha.com/2013/07/22/pyocr-a-python-script-for-running-free-ocr-on-your-pdfs/

Die Seite ist gerade offline während ich das schreibe (lustig).
Unter Dukumentation gibt es eine Installationsanleitung und den link zum Paket.
Dieses kann man per git clone ... oder wie ich per Hand herunterladen (vlt. liegt hier mein Fehler).

Beim Aufruf des "Hauptscriptes" mit

Rich (BBCode):

python pypdfocr.py Eingangsdatei Ausgabedatei

werden nach und nach alle erforderlichen python Pakete abgefragt.
Diese sind teilweise nicht per ipkg verfügbar, zumal das Script erst > pyhton2.6 zu laufen scheint.
Fehlermeldung mit python 2.5.X: Warning: 'with' will become a reserved keyword in Python 2.6

Im Script selbst wird python2.7 erwartet, für welches kaum Pakete existieren.

Da ich bereits python2.5 verwende, habe ich mich entschlossen python2.7 parallel zu installieren (Wahrscheinlich liegt hier mein Problem mit den Fehlermeldungen su. und es kann jemand helfen.)

Fazit des Geschwafels ... vermutlich läuft es bei Euch wenn nur eine Version python, 2.6 oder 2.7 installiert wird, wobei Ihr dennoch die ganzen Pakete selbst installieren müßt, wenn sie nicht per ipkg verfügbar sind.

2) Installieren von python2.7

==> Script läuft nicht mit pyhton2.5 (2.6 nicht gestestet)

Rich (BBCode):

ipkg install python27

Jetzt habe ich nach und nach die die Pakete installiert, die pypdfocr erwartet.

=> Tip: Da es keine automatische Deinstallation der python Pakete gibt (nicht zutreffend für ipkg Pakete), legen wir bei der Installtion ein Textfile mit im jeweiligen Ordner an.

Rich (BBCode):

python setup.py install --record files.txt

=> Zum Deinstallieren dann wieder in demselben Verzeichnis.

Rich (BBCode):

cat files.txt | xargs rm -rf

a) Installieren von PIL

Fehlermeldung: ImportError: No module named PIL

Rich (BBCode):

cd /volume1/public
wget http://effbot.org/downloads/Imaging-1.1.7.tar.gz
tar -xzf Imaging-1.1.7.tar.gz && rm Imaging-1.1.7.tar.gz && cd Imaging-1.1.7
python2.7 setup.py build_ext -i
python2.7 selftest.py
python2.7 setup.py install  --record files.txt

Die Funktion selftest zeigt nur ob alles paßt, nicht in allen Paketen verfügbar.

b) Installieren von yaml

Fehlermeldung: ImportError: No module named yaml

Rich (BBCode):

cd /volume1/public
wgest http://pyyaml.org/download/pyyaml/PyYAML-3.11.tar.gz  ===> PyYAML is a YAML parser and emitter for Python.
tar -xzf PyYAML-3.11.tar.gz && rm PyYAML-3.11.tar.gz && cd PyYAML-3.11
python2.7 setup.py install  --record files.txt

c) Installieren von PyPdf

Fehlermeldung: from pypdfocr_pdf import PyPdf

Rich (BBCode):

cd /volume1/public
wget http://pybrary.net/pyPdf/pyPdf-1.13.tar.gz     <<< wird nicht mehr weitereintwickelt
tar -xzf pyPdf-1.13.tar.gz && rm pyPdf-1.13.tar.gz && cd pyPdf-1.13
python2.7 setup.py install  --record files.txt

d) Installieren von PyPDF2

ich installiere auch PyPDF2

Rich (BBCode):

cd /volume1/public
wget https://pypi.python.org/packages/source/P/PyPDF2/PyPDF2-1.21.tar.gz#md5=cbcd66663fcddfef25505435a323a9d8
tar -xzf PyPDF2-1.21.tar.gz && rm PyPDF2-1.21.tar.gz && cd PyPDF2-1.21
python2.7 setup.py install  --record files.txt

e) Installieren von reportlab

Fehlermeldung: ImportError: No module named reportlab.pdfgen.canvas

Rich (BBCode):

cd /volume1/public
wget https://bitbucket.org/rptlab/reportlab/get/524abc79e4b9.zip
unzip -q 524abc79e4b9.zip && rm 524abc79e4b9.zip && cd rptlab-reportlab-524abc79e4b9
python2.7 setup.py install  --record files.txt

f) Installieren von setuptools

Fehlermeldung: ImportError: No module named watchdog.observers => zur installation benötigen wir setuptool und diverse

=> Es gibt hierzu ein ipkg Paket => Bitte probiert das aus, und danach Punkt g).

Rich (BBCode):

ipkg install py27-setuptools

=> Bei mir kommt mit dem ipkg Paket bei einigen nachfolgenden Paketen leider Fehlermeldungen, wie:

Rich (BBCode):

DiskStation> python2.7 setup.py easy_install --record files.txt
running easy_install
error: /opt/local/lib/python2.5/site-packages (in --site-dirs) is not on sys.path
DiskStation>

=> Hat jemand ne Idee was ich flasch mache und kann helfen ???? Ich mache dann nur ein build und installiere nur die libs. Allerdings bleiben ein paar Fehlermeldungen ?!

=> Wenn das ipkg systemtool nicht funktioniert wie bei mir, dann:

Rich (BBCode):

ipkg remove py27-setuptools
cd /volume1/public
wget https://pypi.python.org/packages/source/s/setuptools/setuptools-3.6.tar.gz
tar -xzf setuptools-3.6.tar.gz && rm setuptools-3.6.tar.gz && cd setuptools-3.6
python2.7 setup.py build
python2.7 setup.py install_lib --record files.txt

g) Installieren von argh

Rich (BBCode):

cd /volume1/public
wget https://pypi.python.org/packages/source/a/argh/argh-0.24.1.tar.gz
tar -xzf argh-0.24.1.tar.gz && rm argh-0.24.1.tar.gz && cd argh-0.24.1
python2.7 setup.py install  --record files.txt

h) Installieren von argparse

Rich (BBCode):

cd /volume1/public
wget https://pypi.python.org/packages/source/a/argparse/argparse-1.2.1.tar.gz
tar -xzf argparse-1.2.1.tar.gz && rm argparse-1.2.1.tar.gz && cd argparse-1.2.1
python2.7 setup.py install  --record files.txt

i) Installieren von watchdog

Jetzt können wir endlich watchdog installieren.

Rich (BBCode):

cd /volume1/public
wget https://pypi.python.org/packages/source/w/watchdog/watchdog-0.7.1.tar.gz
tar -xzf watchdog-0.7.1.tar.gz && rm watchdog-0.7.1.tar.gz && cd watchdog-0.7.1
python2.7 setup.py build
python2.7 setup.py install_lib  --record files.txt

j) Installieren von evernote

Fehlermeldung: ImportError: No module named evernote.api.client

Rich (BBCode):

cd /volume1/public
wget https://pypi.python.org/packages/source/e/evernote/evernote-1.25.0.tar.gz
tar -xzf evernote-1.25.0.tar.gz && rm evernote-1.25.0.tar.gz && cd evernote-1.25.0
python2.7 setup.py install  --record files.txt

k) Installieren von oauth2

Fehlermeldung: ImportError: No module named oauth2

Rich (BBCode):

cd /volume1/public
wget https://pypi.python.org/packages/source/o/oauth2/oauth2-1.5.211.tar.gz
tar -xzf oauth2-1.5.211.tar.gz && rm oauth2-1.5.211.tar.gz && cd oauth2-1.5.211
python2.7 setup.py install --record files.txt

l) Installieren von httplib2

Fehlermeldung: ImportError: No module named httplib2

Rich (BBCode):

cd /volume1/public
wget https://pypi.python.org/packages/source/h/httplib2/httplib2-0.9.tar.gz
tar -xzf httplib2-0.9.tar.gz && rm httplib2-0.9.tar.gz && cd httplib2-0.9
python2.7 setup.py install --record files.txt

m) Installieren von xpdf

Fehlermeldung: WARNING: Could not execute pdfimages to calculate DPI (try installing xpdf or poppler?), so defaulting to 300dpi
pdfimage wäre zu comilieren ... für xpdf gibt es ein Paket

Rich (BBCode):

ipkg install xpdf

Wow schon fertig, einfach ist aber anders.

Hat jemand ne Idee, wie man das Script kappt, gibt es ne andere Version ?

So sieht nun das Resultat aus:

Rich (BBCode):

DiskStation> python2.7 /usr/local/pypdfocr/pypdfocr.py -l deu /volume1/download/_Scan/test.pdf
Starting conversion of /volume1/download/_Scan/test.pdf
Error: Couldn't open file '-list'
WARNING: Could not execute pdfimages to calculate DPI (try installing xpdf or poppler?), so defaulting to 300dpi
PdfReadWarning: Xref table not zero-indexed. ID numbers for objects will not be corrected. [pdf.py:1292]
Completed conversion successfully to /volume1/download/_Scan/test_ocr.pdf
DiskStation>

Das Ergebnis, also das pdf ist aber Müll. Weder Text noch Position passen auch nur ansatzweise.

=> Kann mir jemand bei den Fehlermeldungen:
- Error: Couldn't open file '-list'
- PdfReadWarning: Xref table not zero-indexed. ID numbers for objects will not be corrected. [pdf.py:1292]
- error: /opt/local/lib/python2.5/site-packages (in --site-dirs) is not on sys.path

helfen. Besten Dank im Voraus.

droptix · 06. Jan 2015

Meine Herren... Respekt für die Arbeit, aber im Fazit lese ich hier, dass der Weg a) steinig ist, b) je nach DS nicht immer zum Ziel führt und c) wer es doch schafft, ist vllt. gar nicht zufrieden mit der Qualität :-(

Ich bin heute auf das hier gestoßen, im "Beta Channel" gibt es auch ein tesseract.spk:

http://packages.jdel.org/?arch=88f6281&channel=beta

In der "Full package list" findet man für diverse DS-Architekturen auch verschiedene Pakete (ganz unten):

http://packages.jdel.org/index.php?fulllist=true

Hilft das weiter?

Leider: wenn ich über Synology models meine DS 212j auswähle (CPU 88F6281), wird mir tesseract nicht angeboten :-( Andererseits gibt es ein Paket namens tesseract-ocr_88f6281_3.02.02-1.spk was vermuten lässt dass es für mein CPU-Modell gemacht ist.

Kennt oder nutzt jemand http://packages.jdel.org/ als Paketquelle? Kann man dem vertrauen?

Struppix · 08. Jan 2015

Hi droptix,

danke für den Link mit den Packages, sehr hilfreich.

Ehrlich gesagt ist tesseract schwierig aber lösbar ...

Mein Problem bleibt weiterhin, dies dann sinnvoll in eine pdf Lösung zu integrieren. Genau das ist aber das Problem. Soweit ich das überblickt habe (bis Mai, hatte dann die Lust verloren) ist genau das unmöglich, da man fast immer exactimage braucht, welches ich ums verrecken nicht kompiliert bekomme.

Habe dann gefrustet aufgehört ... immer mit dem Hintergedanken mal weiterzumachen.

Pur nützt tesseract nicht wirklich etwas. Oder sehe ich das falsch ?

Also nochmal einfacher: Ich möchte mittels tesseract pdf's von meinem Scanner (läuft auf der DS link) durchsuchbar, also nicht als Grafik, ablegen.

Gruß
Struppix

Suche

hocr2pdf auf ds411+II?

donpedro

Benutzer

adahmen

Benutzer

donpedro

Benutzer

geimist

Benutzer

blinddark

Benutzer

donpedro

Benutzer

Molt

Benutzer

Molt

Benutzer

Molt

Benutzer

Struppix

Benutzer

Struppix

Benutzer

Struppix

Benutzer

Struppix

Benutzer

droptix

Benutzer

Struppix

Benutzer

Kaffeautomat