Kommentare aus einer PDF-Datei extrahieren

Status
Für weitere Antworten geschlossen.

itari

Benutzer
Mitglied seit
15. Mai 2008
Beiträge
21.900
Punkte für Reaktionen
14
Punkte
0
Ich suche ein Tool, das z. B. auf einer ATOM-DiskStation läuft, um gezielt die Kommentare aus PDF-Dateien zu extrahieren (als normaler Text) mit den dazugehörigen Verweisen: Also Seitenzahl/Zeilenzahl oder so ähnlich. Kann auch gerne eine PHP-Lösung sein.

Itari
 

Trolli

Benutzer
Mitglied seit
12. Jul 2007
Beiträge
9.848
Punkte für Reaktionen
1
Punkte
0

jahlives

Benutzer
Mitglied seit
19. Aug 2008
Beiträge
18.275
Punkte für Reaktionen
4
Punkte
0

itari

Benutzer
Mitglied seit
15. Mai 2008
Beiträge
21.900
Punkte für Reaktionen
14
Punkte
0
Freeware / Open Source oder auch Kostenpflichtig?

Wenn du 650 $ ausgeben willst könnte das eine Lösung sein: http://flexpaper.devaldi.com/annotations.htm
;-)

Gruß Wessix

Ich will die PDF-Kommentar-Texte auf der DiskStation weiterverarbeiten in einem PHP-Skript ... die Lösung von flexpaper scheint ein eigenes Anmerkungsystem zu sein (also nicht auf bereits in PDF enthaltenen Kommentare zu gehen). Dennoch danke für den Hinweis.

Itari
 

itari

Benutzer
Mitglied seit
15. Mai 2008
Beiträge
21.900
Punkte für Reaktionen
14
Punkte
0

itari

Benutzer
Mitglied seit
15. Mai 2008
Beiträge
21.900
Punkte für Reaktionen
14
Punkte
0
Oder vielleicht auch http://www.pdflabs.com/docs/pdftk-man-page/ wobei ich mich mit dieser Thematik auch noch nicht wirklich auseinandergesetzt habe :)
sind denn die gesuchten Texte "Metadaten"? Falls ja kann man die scheinbar mit pdftk so herausholen: http://www.lagotzki.de/pdftk/index.html#metadata

Nein sind keine Metadaten, sondern stehen im Datenstrom (oder in einer separaten Datei). Ich komme auch recht einfach an die Kommentare per 'grep' und 'sed' dran:

Rich (BBCode):
grep 'Type/Annot/Subj(Notiz)' PDFtest.pdf | sed 's|^.*Contents(\(.*\))/Type/Annot.*$|\1\n|' | sed 's|\\r|\n|'

aber ich würde gerne die Informationen: wer der Autor ist, wann sie geschrieben wurden und wo sie in der Datei stehen, auch ausgeben ... und das ist mir so händisch zu viel Puzzlearbeit, deswegen such ich ein Tool, was das entweder in PHP oder auf der Kommandozeile kann (gerne ein Skript)

Itari
 

jahlives

Benutzer
Mitglied seit
19. Aug 2008
Beiträge
18.275
Punkte für Reaktionen
4
Punkte
0
aber Author ist doch definitiv auch in den Metadaten vorhanden. Ich versuch das mal heute abend auf meiner DS zu kompillieren und jage dann man ein pdf durch.
 

Trolli

Benutzer
Mitglied seit
12. Jul 2007
Beiträge
9.848
Punkte für Reaktionen
1
Punkte
0
Wenn ich das richtig verstehe, geht es itari um den Author der Kommentare...
 

jahlives

Benutzer
Mitglied seit
19. Aug 2008
Beiträge
18.275
Punkte für Reaktionen
4
Punkte
0
Ah dann machen die Metadaten wirklich keinen Sinn. Ich versuchs trotzdem mal zu kompillieren.
@itari
ev könntest du mir ja ein Testpdf schicken, welches ich dann mal an das Kommando verfüttern könnte
 

itari

Benutzer
Mitglied seit
15. Mai 2008
Beiträge
21.900
Punkte für Reaktionen
14
Punkte
0
Minitest-Beispiel - geht bei mir im FF7 nicht per Plug-in, also downloaden und händisch aufrufen.

Anhang anzeigen PDFtest.pdf

Itari
 

jahlives

Benutzer
Mitglied seit
19. Aug 2008
Beiträge
18.275
Punkte für Reaktionen
4
Punkte
0
@itari
pdftk konnte nicht wirklich viel aus den Metadaten holen. Also wirklich nicht geeignet für dein Vorhaben.
Dann habe ich dein pdf noch dem pdftohtml zum Frass vorgeworfen. Leider auch nicht wirklich ein berauschendes Resultat :) Die Texte sehen irgendwie doppet aus (syno.brain-force.ch/itari/test.html)
 

abalzer

Benutzer
Mitglied seit
27. Okt 2010
Beiträge
17
Punkte für Reaktionen
0
Punkte
1
Das Tool kann ghostscript sein. Es liefert alles was man braucht. Mit ipkg ghostscript installieren und pdf2ps <pdf-datei> aufrufen. Das Ergebnis kann mittels grep auf "%%Pages" die Seitenzahl liefern, wobei i. d. R. das letzte Auftreten von Pages relevant ist.
 

itari

Benutzer
Mitglied seit
15. Mai 2008
Beiträge
21.900
Punkte für Reaktionen
14
Punkte
0
Das Tool kann ghostscript sein. Es liefert alles was man braucht. Mit ipkg ghostscript installieren und pdf2ps <pdf-datei> aufrufen. Das Ergebnis kann mittels grep auf "%%Pages" die Seitenzahl liefern, wobei i. d. R. das letzte Auftreten von Pages relevant ist.

pdf2ps aus IPKG-ghostscript mag nicht laufen.

pdftops aus IPKG-xpdf funktioniert, liefert aber keine Annotations ...

Itari

Nachtrag: pdf2ps läuft nun doch, liefert aber auch keine Annotations
 
Zuletzt bearbeitet:

jahlives

Benutzer
Mitglied seit
19. Aug 2008
Beiträge
18.275
Punkte für Reaktionen
4
Punkte
0
@itari
hast du nicht einen debian chroot? :)
 

JakeyM

Benutzer
Mitglied seit
04. Nov 2013
Beiträge
1
Punkte für Reaktionen
0
Punkte
0
hey ich suche auch eine Art converter oder tool mit den ich text aus einer PDF kriege...
bis jetzt habe ich nur http://pdftoword.pro/ gefunden
aber das vermischt meinen text irgendwie :/

kann mir da jemand helfen? danke :)
 
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat