Aspirer un site avec wget | Rappels utiles Linux

2016-06-01T20:55:26+02:00

wget -r -k -E -np http://tar.get/wanted/directory/

Donc la cible est http://tar.get/wanted/directory/. Les options :

-r pour parcourir tous les liens du sites.
-k conversion des liens en liens locaux.
-E conversion php vers HTML, pour relire aisément avec Firefox.
-np pour ne pas remonter dans l’arborescence du site

D’autre options utiles :

-lX, où X est un entier, pour ne parcourir que X niveaux de l’arborescence du site.
-c pour continuer un téléchargement interrompu.
–load-cookies si nécessaire.

Les options pour ne pas pourir le serveur :

–limit-rate X, pour limiter la Bande Passante à X B/s
-w X pour attendre X secondes entre chaque téléchargement de fichiers.
-T X au bout de X secondes wget abandonne le téléchargement d’un fichier.
(Permalink)

Couvertures Charlie

2015-01-11T19:34:00+01:00

Merci Le Hollandais Volant, je me suis fais une petite sauvegarde aussi...

La commande pratique:
wget -r -l 1 -nd --no-parent -A.{gif,jpg,png} "http://www.cochisette.com/photos/?dir=Charlie_hebdo&page=all";
(Permalink)

Crawler un site Web avec wget

2013-07-03T19:00:03+02:00

Ça devrait servir... Sous le coude...
(Permalink)

Les Post-It de la MerMouY

Aspirer un site avec wget | Rappels utiles Linux

Couvertures Charlie

Crawler un site Web avec wget