wget -r -linf -k -p -E http://www.site.org/
Explications prises sur la page http://doc.ubuntu-fr.org/wget :
Télécharger le site récursivement avec une profondeur infinie ( -linf ), convertit les liens pour une consultation en local ( -k ), rapatrie tout les fichiers nécessaires à l’affichage convenable d’une page HTML ( -p ) et renomme toutes les pages HTML avec l’extension .html ( -E ) :
http://www.system-linux.eu/index.php?post/2009/05/26/Aspirer-un-site-web-avec-la-commande-Wget
ajouter -E pour les pages avec paramètre :
-E
--html-extension
Si un fichier de type application/xhtml+xml ou texte/html est téléchargé et que l'URL ne se termine par l'expression régulière .[Hh][Tt][Mm][Ll]?, cette option provoque l'ajout du suffixe .html au nom de fichier local. C'est pratique, si vous êtes en train de répliquer un site distant qui utilise des pages .asp, mais vous voulez que les pages répliques soient visibles sur votre serveur Apache. Cette option est aussi très utile lorsque vous téléchargez la sortie de CGI. Une URL comme http://site.com/article.cgi?25 sera sauvegardé sous article.cgi?25.html.
wget -r -k -np --user-agent=Firefox url-du-site
Explication :
L'option -r signifie que le téléchargement sera récursif, télécharge des liens de la page.
Le -k permet de reconstituer le site localement, les liens sont modifié pour pointer localement.
Le -np empêche de remonter dans le répertoire parent.
Et --user-agent= pour faire passer Wget pour un Firefox. (c'est très mal !)
vous avez aussi pour les sites qui demandent une authentification :
--http-user
et --http-password
Il paraîtrait même qu'un autre utilitaire serait faire encore mieux le mal lui aussi : httrack