LetoDms Dokumentenmanagementsystem für Synology

Status
Für weitere Antworten geschlossen.

DanielGr

Benutzer
Mitglied seit
19. Mrz 2013
Beiträge
23
Punkte für Reaktionen
0
Punkte
0
OK gut, die output.txt enthält in dem Fall auch Text den er aus dem Content entnommen hat? Würde heissen das PHP beide Tools findet und ansprechen kann.

Im Tester sind die Tools mit den Pfaden drin. Kannst du nun mal den Pfad noch wegnehmen und es nochmals laufen lassen?

PHP:
system ("pdftotext 1.pdf output.txt");

Du kannst natürlich auch in der SeedDMS Config den Pfad /opt/bin einbauen.

Hast du bereits include_path etc. konfiguriert und lässt andere Applikationen laufen? Falls nicht kann ich dir mal meine gesamte Config aufzeichnen bzw. zusammenpacken damit du sie so auf deine Syno kopieren kannst. Das müsste dann einfach laufen.
 
Zuletzt bearbeitet:

atarifreak

Benutzer
Mitglied seit
01. Apr 2009
Beiträge
261
Punkte für Reaktionen
0
Punkte
22
ok Teste ich am Sonntag (bin grad nicht bei der DS und die ist auch offline...). Die Output.txt sah zumindest am Ende so aus wie Teile der WLAN-Datei. Genau hab ichs nicht kontrolliert.
Aber ist system() nicht auch etwas anderes wie popen() ?

Das mit Pfad und ohne Pfad habe ich in seedDMS schon getestet, ohne Erfolg. Allerdings weiß ich nicht, welche config zu meinst, weil er ja die pear/SeedDMS/Lucene/Indexer.php nimmt, und dort ist pdftotext "hard-Codiert" und wird nicht aus der config.xml gelesen (soweit meine PHP-Kenntnisse reichen)

Was meinst du mit include_path? den habe ich nicht gesetzt, da seedDMS ja einen "eigenen" extrapath in der config.xml setzt.
Was für andere Applikationen? ich habe ja ipkg installiert (über das SPK) und debian change-root. Allerdings habe ich das Debian auch erst später wieder installiert, als es ohne auch nicht ging...
Allerdings läuft das change-root ja auch nicht immer. Habe da nur 2 Dienste konfiguriert, die ich "Manuell" starte, wenn ich sie benötigte (einen 2. SSH-Server mit anderem Port und den apt-cacher-ng)
 
Zuletzt bearbeitet:

DanielGr

Benutzer
Mitglied seit
19. Mrz 2013
Beiträge
23
Punkte für Reaktionen
0
Punkte
0
Ja du kannst auch den extrapath nehmen, den habe ich allerdings nie getestet, mache ich doch gleich mal und lass dich wissen ob der Fulltext danach noch sauber tut.
 

DanielGr

Benutzer
Mitglied seit
19. Mrz 2013
Beiträge
23
Punkte für Reaktionen
0
Punkte
0
Habs jetzt getestet und den include_path global deaktiviert und in SeedDMS gesetzt, kein Unterschied, liest den Content auch ein.
 

DanielGr

Benutzer
Mitglied seit
19. Mrz 2013
Beiträge
23
Punkte für Reaktionen
0
Punkte
0
Hab am Montag meine neue DS713+ bekommen, eingerichtet, SeedDMS von der alten migriert, Fulltext erstellt und Content erhalten.

Bastel jetzt erst mal eine Anleitung
 

atarifreak

Benutzer
Mitglied seit
01. Apr 2009
Beiträge
261
Punkte für Reaktionen
0
Punkte
22
Habs jetzt getestet und den include_path global deaktiviert und in SeedDMS gesetzt, kein Unterschied, liest den Content auch ein.

Was hast du bei oben_base_dir eingestellt?
Welchen Besitzer / Rechte hat die /opt/bin/pdftotext?

Bin auf deine Anleitung gespannt, könnte man dann ja ins Wiki übernehmen und meine alte LetoDMS Anleitung löschen /oder aktualisieren für SeedDMS.
Bei mir bisher weiterhin kein Erfolg. Ich weiß einfach nicht, was ich anders mache wie du...
Zur Not kann ich mit dem Index-Skript auf der Konsole leben (einen Cronjob jede Stunde oder je nach Nutzung 1x am Tag)
 

DanielGr

Benutzer
Mitglied seit
19. Mrz 2013
Beiträge
23
Punkte für Reaktionen
0
Punkte
0
Was hast du bei oben_base_dir eingestellt?
Welchen Besitzer / Rechte hat die /opt/bin/pdftotext?

Bin auf deine Anleitung gespannt, könnte man dann ja ins Wiki übernehmen und meine alte LetoDMS Anleitung löschen /oder aktualisieren für SeedDMS.
Bei mir bisher weiterhin kein Erfolg. Ich weiß einfach nicht, was ich anders mache wie du...
Zur Not kann ich mit dem Index-Skript auf der Konsole leben (einen Cronjob jede Stunde oder je nach Nutzung 1x am Tag)

Die Anleitung habe ich fertig, soll ich sie einfach mal auf meiner Seite als PDF oder als ZIP bereitstellen damit du die Bilder etc. für das Wiki hast?

Die /opt/bin/pdftotext hat folgende Rechte:

Rich (BBCode):
-rwxr-xr-x    1 root     root        793864 May 18  2010 pdftotext

Nun ich probiers jetzt auch noch mal auf der Konsole, glaube das Problem respektive das Muster gefunden zu haben, bin zur Zeit am abklären.
 

atarifreak

Benutzer
Mitglied seit
01. Apr 2009
Beiträge
261
Punkte für Reaktionen
0
Punkte
22
Gerne als ZIP.
Kann die am Mittwoch testen (vorher kaum Zeit).
Bei deinem Testskript ist es übrigens egal, ob mit Pfad oder ohne. Tut beides :-D
Als ich SeedDMS per Konsole entpackt habe, war natürlich erstmal alles root (bzw. user 33) und die sqlite-Datenbank konnte nicht gelesen werden (bzw. nicht geschrieben). Nachdem sie dann chmod 777 hatte und der nobody:users * eingestellt war, gings dann. Natürlich nervte dann wieder der open_base_dir, aber den hab ich mittlerweile nach ganz hinten gestellt! OB auf meiner DS open_base_dir = / steht ist zwar nicht schön, aber hier im lokalen Netz vorerst ok.
 

DanielGr

Benutzer
Mitglied seit
19. Mrz 2013
Beiträge
23
Punkte für Reaktionen
0
Punkte
0
Gerne als ZIP.
Kann die am Mittwoch testen (vorher kaum Zeit).
Bei deinem Testskript ist es übrigens egal, ob mit Pfad oder ohne. Tut beides :-D
Als ich SeedDMS per Konsole entpackt habe, war natürlich erstmal alles root (bzw. user 33) und die sqlite-Datenbank konnte nicht gelesen werden (bzw. nicht geschrieben). Nachdem sie dann chmod 777 hatte und der nobody:users * eingestellt war, gings dann. Natürlich nervte dann wieder der open_base_dir, aber den hab ich mittlerweile nach ganz hinten gestellt! OB auf meiner DS open_base_dir = / steht ist zwar nicht schön, aber hier im lokalen Netz vorerst ok.

Den Open Basedir habe ich gar nicht konfiguriert, der ist so wie von Synology geliefert und hat mir bis jetzt noch nie Probleme gemacht. Ich weiss nicht wieso der bei dir derart rumzickt. Ich gehe nun mal davon aus das bei dir auch alles im web Verzeichnis liegt und du das nicht woanders hingelegt hast.

ZIP liegt hier: http://www.grutsch.ch/work/seeddms_install.zip

Ich habe übrigens in meiner Testinstallation mit den 3 Dokumenten festgestellt das 2 vom Webindexer nicht indexiert werden, auf der Kommandozeile schon. Das Muster erschliesst sich mir noch nicht ganz, hab mal Uwe entsprechend informiert.
 

atarifreak

Benutzer
Mitglied seit
01. Apr 2009
Beiträge
261
Punkte für Reaktionen
0
Punkte
22
Den Open Basedir habe ich gar nicht konfiguriert, der ist so wie von Synology geliefert und hat mir bis jetzt noch nie Probleme gemacht. Ich weiss nicht wieso der bei dir derart rumzickt. Ich gehe nun mal davon aus das bei dir auch alles im web Verzeichnis liegt und du das nicht woanders hingelegt hast.

Ja liegt alles im web-Verzeichnis.

Um genauer zu sein, die Probleme kommen jetzt nur noch beim Installer vor, den man ja für die Quick-Version eigentlich nicht raucht. Hatte ihn aber nachdem es nicht lief immer mal wieder getestet, ob damit etwas eingestellt wird, das läuft.
Warning: file_exists(): open_basedir restriction in effect. File(/usr/syno/php/lib/php/Log.php) is not within the allowed path(s): (/etc.defaults:/usr/bin/php:/usr/syno/synoman:/etc:/var/run:/tmp:/var/spool/php:/volume1/@tmp/php:/var/services/web:/var/services/photo:/var/services/blog:/var/services/homes) in /volume1/web/seeddms43x/seeddms-4.3.0/inc/inc.ClassSettings.php on line 814 Warning: file_exists(): open_basedir restriction in effect. File(/usr/syno/php/lib/php/HTTP/WebDAV/Server.php) is not within the allowed path(s): (/etc.defaults:/usr/bin/php:/usr/syno/synoman:/etc:/var/run:/tmp:/var/spool/php:/volume1/@tmp/php:/var/services/web:/var/services/photo:/var/services/blog:/var/services/homes) in /volume1/web/seeddms43x/seeddms-4.3.0/inc/inc.ClassSettings.php on line 814 Warning: file_exists(): open_basedir restriction in effect. File(/usr/syno/php/lib/php/Zend/Search/Lucene.php) is not within the allowed path(s): (/etc.defaults:/usr/bin/php:/usr/syno/synoman:/etc:/var/run:/tmp:/var/spool/php:/volume1/@tmp/php:/var/services/web:/var/services/photo:/var/services/blog:/var/services/homes) in /volume1/web/seeddms43x/seeddms-4.3.0/inc/inc.ClassSettings.php on line 814 Warning: file_exists(): open_basedir restriction in effect. File(/usr/syno/php/lib/php/SeedDMS/Core.php) is not within the allowed path(s): (/etc.defaults:/usr/bin/php:/usr/syno/synoman:/etc:/var/run:/tmp:/var/spool/php:/volume1/@tmp/php:/var/services/web:/var/services/photo:/var/services/blog:/var/services/homes) in /volume1/web/seeddms43x/seeddms-4.3.0/inc/inc.ClassSettings.php on line 814 Your current database schema has version 4.3.0. Please run all (if any)

Die ZIP und das PDF teste ich gerade und berichte dann wieder.

Update: das PDF per PN tut. Das 1.PDF, dass bei dem Test-Skript dabei war, aber nicht.
Update 2: Geile Anleitung. Aber eigentlich machst du das gleiche wie ich :)
Hab gerade eine kleinere PDF von mir genommen (Kontoauszug...): --- ne, doch nicht...hatte nur auf die index-Zahlen geschaut.

Also liegt es irgendwie an der Größe? deine Lizenz-Datei ist j auch deutlich kleiner als die 1.PDF (die WLAN-Anleitung)

Das wäre ja geil, wenn es daran liegen würde...
 
Zuletzt bearbeitet:

DanielGr

Benutzer
Mitglied seit
19. Mrz 2013
Beiträge
23
Punkte für Reaktionen
0
Punkte
0
Ich denke ich habe einen Ansatz gefunden.

Gehe im SeedDMS in die Admin Tools.

Dort änderst du den Aufruf von pdftotext in folgenden:

Rich (BBCode):
pdftotext -enc UTF-8 -nopgbrk %s - | sed -e 's/ [a-zA-Z0-9.]\{1\} / /g' -e 's/[0-9.]//g'

Neu hinzugekommen ist -enc UTF-8

Hat bei mir in der Testinstallation einen Unterschied gemacht.

Standardsetting: 160 Terms
Obiges Setting: 1894 Terms

Dies mit 3 Dokumenten.
 

atarifreak

Benutzer
Mitglied seit
01. Apr 2009
Beiträge
261
Punkte für Reaktionen
0
Punkte
22
wollte das gerade mal wieder testen:
nach login in der quickinstall:
An error has occured: attempt to write a readonly database
also noch ein chmod 777
dann hab ich ein:
An error has occured: unable to open database file

LOL.. was denn jetzt schon wieder los?

Edit: erst ein chmod 777 auf das gesamte Verzeichnis half... Berichte gleich von dem pdftotext UTF-8 Problem
Edit 2: also es sieht besser aus. Sind das die 3 PDF, die ich von dir habe zum testen? (hab ich 3?). Also zumindest funktioniert es ein bisschen. Ich habe aber das Gefühl, das sind lange nicht alle Begriffe, die in der PDF vorkommen.
 
Zuletzt bearbeitet:

DanielGr

Benutzer
Mitglied seit
19. Mrz 2013
Beiträge
23
Punkte für Reaktionen
0
Punkte
0
Ich denke du solltest 3 PDF haben, es sei denn ich hätte eines vergessen.

Es gibt die stopwords.txt Datei im Content Verzeichnis. Diese enthält die Begriffe die nicht indexiert werden, also die Zahl der Begriffe reduzieren. Und dann kann es auch ab und an vorkommen das pdftotext ein Wort nicht erkennt und nur einen Krüppel zurückliefert, das wird soweit ich gesehen habe ebenfalls ausgefiltert.
 

myth

Benutzer
Mitglied seit
04. Aug 2013
Beiträge
3
Punkte für Reaktionen
0
Punkte
0
Hallo Leute,

ich bin neu hier im Forum und habe gestern letoDMS 3.4 auf meiner DS413 installiert. SeedDMS habe ich leider erst danach entdeckt, aber evtl. kann ich es ja rüberbügeln, wie hier schon einige beschrieben haben. Wobei ich aktuell den genauen Unterschied bzw. die Vorteile von SeedDMS 4 noch nicht kenne.

Na ja lange Rede kurzer Sinn: Alles funktioniert wie im Wiki beschrieben. Nun habe ich mir noch catdoc von http://ipkg.nslu2-linux.org/feeds/optware/syno-e500/cross/stable/ besorgt und es auf die selbe Art in der DS eingebunden. Bei der Volltextindizierung scheint es aber nicht zu funktionieren, zumindest werden mir die Texte aus den .doc Dateien nicht angezeigt. Führe ich catdoc auf der Konsole aus, scheint ihm auch der charset zu fehlen und es kommt:

Rich (BBCode):
Cannot load charset cp1251 - file not found

Hat jemand ein ähnliches Problem und weiß eine Lösung?

Ich bin dankbar für jede Hilfe!!

PS: Weiß jemand wo ich ssconvert herbekomme, bzw. in welchem Paket das enthalten ist?
 

atarifreak

Benutzer
Mitglied seit
01. Apr 2009
Beiträge
261
Punkte für Reaktionen
0
Punkte
22
hi, wollte nur kurz sagen, dass ich dazu leider keine Lösung habe. mit ipkg search schon probiert?
ich bin momentan noch beim pdf-index-problem
 

myth

Benutzer
Mitglied seit
04. Aug 2013
Beiträge
3
Punkte für Reaktionen
0
Punkte
0
Hallo,

also ich habe inzwischen herausgefunden, dass ssconvert zu gnumeric gehört und man dafür einige GNOME Libs installieren müsste. Das wäre bei einem Synology NAS natürlich nicht so wirklich sinnvoll. Alternativ könnte man xls2csv installieren, ob es aber funktioniert mit letodms habe ich noch nicht getestet.

catdoc habe ich leider auch noch nicht zum laufen gebracht.
 

noVa87

Benutzer
Mitglied seit
04. Sep 2013
Beiträge
3
Punkte für Reaktionen
0
Punkte
0
Hallo Liebe Forum-Gemeinde,

Ich habe mich etwas mit dem SeedDms auseinander gesetzt und bis zur automatische Volltext-indexierung klappt auch alles. Ich habe nun folgendes Problem:

Szenario:
- 5 Files im Store

Standardmässig sind dabei 35 Terms erkannt worden.
Wenn über das Webinterface die Indexierung angestossen wird, dann ändert sich nichts an der Anzahl der Terms. Aber ich kriege dabei einen error im apache log:
sed: Unsupported command '

Wenn ich das script /seeddms/utils/seeddms-indexer aus der Konsole anstosse, dann läuft dieses auch durch. In der Volttext-Index Info auf dem Webinterface erhalte ich nun 1177 Terms!!
Es spielt dabei keine rolle mit welchem User ich das Shell Scrip ausführe, es läuft jedes mal durch und macht was es soll.

Meine Vermutung lieg irgendwie bei der sed Befehlsübergabe von :
pdftotext -enc UTF-8 -nopgbrk %s - | sed -e 's/ [a-zA-Z0-9.]\{1\} / /g' -e 's/[0-9.]//g'

Kennt jemand das Problem?

LG
noVa
 

myth

Benutzer
Mitglied seit
04. Aug 2013
Beiträge
3
Punkte für Reaktionen
0
Punkte
0
Hallo,

hast du /usr/bin/pdftotext in die php open_basedir Einstellungen eingetragen?
 

noVa87

Benutzer
Mitglied seit
04. Sep 2013
Beiträge
3
Punkte für Reaktionen
0
Punkte
0
Leider nicht

Hallo und Danke für die schnelle Antwort

Hallo,

hast du /usr/bin/pdftotext in die php open_basedir Einstellungen eingetragen?

ich hatte in meiner php.ini keinen open_basedir Eintrag drin, als ich diesen gesetzt habe, konnte ich nach restart vom apache nicht einmal die Seite laden.

als ich den Eintrag entfernte, lief die Seite wieder...

gibt es evtl. andere Vorschläge ?

Gruss
noVa
 

noVa87

Benutzer
Mitglied seit
04. Sep 2013
Beiträge
3
Punkte für Reaktionen
0
Punkte
0
Hallo Zusammen,

Es hat mir keine ruhe gelassen und hab was ausprobiert. Ich habe im seeddms root Folder ein php-script gebastelt welches den seeddms-indexer aufruft und ein echo ausgibt. Wenn ich das so via URL mache, dann klappt die
Indexierung. Somit kann ich ein Berechtigungsproblem ausschliessen und mich weiter auf die suche machen.

Habe mir auch schon überlegt bis das zum Fliegen kommt, dieses Script als cronejob laufen zu lassen damit die Indexierung einmal täglich in der Nacht gemacht wird. Leider funktionieren dann die Funktionen aus dem Webinterface nicht ...

Hoffe auf eine Idee von euch

Gruss
noVa
 
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat