aspirer un site avec wget

1247 shaares

Filters

Links per page

20 50 100

1 result tagged aspirer

aspirer un site avec wget

wget -r -linf -k -p -E http://www.site.org/

Explications prises sur la page http://doc.ubuntu-fr.org/wget :
Télécharger le site récursivement avec une profondeur infinie ( -linf ), convertit les liens pour une consultation en local ( -k ), rapatrie tout les fichiers nécessaires à l’affichage convenable d’une page HTML ( -p ) et renomme toutes les pages HTML avec l’extension .html ( -E ) :

http://www.system-linux.eu/index.php?post/2009/05/26/Aspirer-un-site-web-avec-la-commande-Wget

ajouter -E pour les pages avec paramètre :
-E
--html-extension
Si un fichier de type application/xhtml+xml ou texte/html est téléchargé et que l'URL ne se termine par l'expression régulière .[Hh][Tt][Mm][Ll]?, cette option provoque l'ajout du suffixe .html au nom de fichier local. C'est pratique, si vous êtes en train de répliquer un site distant qui utilise des pages .asp, mais vous voulez que les pages répliques soient visibles sur votre serveur Apache. Cette option est aussi très utile lorsque vous téléchargez la sortie de CGI. Une URL comme http://site.com/article.cgi?25 sera sauvegardé sous article.cgi?25.html.

wget -r -k -np --user-agent=Firefox url-du-site

Explication :

L'option -r signifie que le téléchargement sera récursif, télécharge des liens de la page.

Le -k permet de reconstituer le site localement, les liens sont modifié pour pointer localement.

Le -np empêche de remonter dans le répertoire parent.

Et --user-agent= pour faire passer Wget pour un Firefox. (c'est très mal !)

vous avez aussi pour les sites qui demandent une authentification :

--http-user

et --http-password

Il paraîtrait même qu'un autre utilitaire serait faire encore mieux le mal lui aussi : httrack

aspirer · site · web · wget

June 16, 2015 at 9:54:04 PM GMT+2 * · permalink

·

http://www.system-linux.eu/index.php?post/2009/05/26/Aspirer-un-site-web-avec-la-commande-Wget