Stahování pomocí wget

Program '''wget''' slouží ke stahování souborů prostřednictvím HTTP(S) nebo FTP(S) protokolu. Prakticky řečeno, z webu.

Základní použití:

'''wget URL1 URL2'''

Příklady:


-O ''filename''

-o ''filename''

-i ''file''


Rekurzivní stahování

Parametrem '''-r''' : tady to začíná být zajímavé. Wget na základě zadaného parametru ''-l #číslo'' určí hloubku rekurze - kolik úrovní stahnout.

Pomocné parametry k rekurzi:

Další zajimavé parametry:


ÚLOHY

1: Stažení všech souborů ze seznamu

Spolupracovník vám poslal na hromadu testovacích souborů pro váš super program.
Bohužel je nezazipoval. Chcete je všechny (a stokrát kliknout se vám nechce).

''Poznámka:'' Tomuhle se říká ''Directory list'', vytváří jej automaticky Apache, pokud to má nastavené. Nastavíte prostřednictvím ''Options +Indexes'' v souboru ''.htaccess'' v dané složce (nebo nadsložce).


2a: Webcomics

Můj oblíbený comics OOTS - http://www.giantitp.com/comics/oots0001.html měl od dílu 1 do dílu 337 svoje díly na krásných adresách:

Stahněte mi je!


2b: Webcomics

Postupně se však spousta ''poťouchlých vykuků'' naučila se shellem a tak následující díly mají adresy jako:

Stále však jsou tyto obrázky linkovány z html stránky s dobrým názvem:

Proto by neměl být problém stáhnout i ty další. Když už v tom budete

Tedy, po těchto dvou úlohách byste mi měli ukázat adresář plný souborů oots0001.gif, oots0002.gif, ..., oots0883.gif


2c:

No jo - ale co nové díly?
Vytvořte script, který bude volán CRONem jednou denně, a který do onoho adresáře stahne případné díly které přibyly.

'''Nápověda:'''


3: Garfield

Kdo by neměl rád oranžového kocoura?
Vyrobte script který stahne všechny díly od prvního ( 25. 6. 1978) do toho posledního.

Tedy adresa obrázku je formátu:

Vaším úkolem je tedy jít po dnech od 780625 až do 130409, vygenerovat adresy, a stahnout. Nebo stahovat průběžně, jak je libo.
Poznámka: Adresář ve kterém je těch cca 15000 obrázků se chová ve většině filesystémů ''zábavně''.


V poslední úloze budeme potřebovat poznat další parametry wgetu:


Zadání:

Máte uživatelský účet na stránkách (například fóru). K obsahu fóra se dostanete až po zalogování.
Přihlašování je realizováno pomocí post dat z formuláře (jukněte na html) - stránka která je uvedena jako action= formuláře dostane metodou post data z formuláře a '''vytvoří cookies'''.
Cookie vás pak identifikuje celou dobu co jste přihlášeni.

Stahněte vše co tam je!