PDF-Download mit vorherigem Login auf Tageszeitung Seite

Status
Für weitere Antworten geschlossen.

duffy6

Benutzer
Mitglied seit
21. Jun 2009
Beiträge
67
Punkte für Reaktionen
0
Punkte
6
Hallo zusammen,

ich möchte den täglichen Download meiner Tageszeitung automatisieren.

Unter http://web.bnn.de muss man sich einloggen (Zu testzwecken: ID:demo PW:demo) und kann dann die tagesaktuelle Ausgabe herunterladen.

Wie könnte ich diesen Vorgang automatisieren, dass jeden Morgen um 6:00 Uhr die tagesaktzuelle Zeitung in einen Ordner auf dem NAS heruntereladen wird (Bsp: \\diskstation\downloads\epaper) ?

Könnt ihr mir da Hilfe geben?


Gruß
duffy6
 

Puppetmaster

Benutzer
Sehr erfahren
Mitglied seit
03. Feb 2012
Beiträge
18.991
Punkte für Reaktionen
628
Punkte
484
Wie fit bist du denn im Umgang mit Konsole, Linux und scripten?
Ich kann dir hier leider keine fertige Lösung anbieten, aber mit dem Kommando 'wget' kannst du z.B. von Webseiten verlinkte Inhalte herunterladen. User und Passwort kann man über Optionen mitgeben. Zur Zeitsteuerung müßte man sich ein script basteln, daß über den cron gesteuert wird. Etwas schwierig wird vielleicht, die konkrete Datei die heruntergeladen werden soll automatisch zu identifizieren.
 

duffy6

Benutzer
Mitglied seit
21. Jun 2009
Beiträge
67
Punkte für Reaktionen
0
Punkte
6
Hi!

Naja, mit Skripten hab ich`s nicht so drauf :-(
Auf der Konsole kann ich ein paar Standardbefehle...

Aber wie kann man denn mit wget Dateien runterladen, wenn man sich vorher einloggen muss?

Ich hab mir mal die Dateinamen der letzten beiden Tage angeschaut, da scheint es ein einfaches System zu geben (Datumcode):
http://web.bnn.de/edition//data/20121202/pages/121202_160_HP_001.pdf
http://web.bnn.de/edition//data/201...2120[COLOR="#FF0000"]2[/COLOR]_160_HP_001.pdf
http://web.bnn.de/edition//data/20121203/pages/121203_160_HP_001.pdf
http://web.bnn.de/edition//data/201...2120[COLOR="#FF0000"]3[/COLOR]_160_HP_001.pdf

Könnt ihr mir mal Starthilfe geben, wie ich sowas anfange?
Die zeitung erscheint übrigens Montag bis Samstag...

Danke und Gruß
duffy6
 

werschi

Benutzer
Mitglied seit
19. Nov 2012
Beiträge
30
Punkte für Reaktionen
0
Punkte
0
Die User und Passwort Option bei wget funktioniert nur bei HTTP Basic Authentication (da bekommt man normalerweise ein Pop-up im Browser) aber nicht bei der Seite http://web.bnn.de denn diese verwendet Form-Based Authentication. (die Login Daten werden per Formular übermittelt)

Du müsstest also die Login Requests (inkl. HTTP POST Daten, Cookies, Referer und wenns ganz wild wird JavaScript) mit wget nachbauen was zwar prinzipiell möglich, aber je nach Seite schon ein ziemlicher Aufwand werden kann.

Besser als wget oder curl wäre aber noch ein web scraper, kennt da evtl. jemand was fertiges für die DS?

EDIT: in einem Nachbarthread geht es um die selbe Problemstellung, da sind auch Links dabei wie so ein fertiges wget script aussehen könnte:

http://www.synology-forum.de/showth...ter-Download-von-Online-Telefonrechnungen-etc.
 
Zuletzt bearbeitet:
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat