跳至正文

wget下载网页

wget --limit-rate=200k --mirror --convert-links --adjust-extension --page-requisites --no-parent https://baidu.com/

可以下载整个网站

解释

  • --mirror:启用镜像下载模式。
  • --convert-links:下载后修改链接,使其指向本地文件。
  • --adjust-extension:根据文件内容调整文件扩展名。
  • --page-requisites:下载页面所需的所有资源(如图片、CSS 和 JavaScript 文件)。
  • --no-parent:只下载指定URL及其子目录的内容,避免下载父目录的文件。

注意事项

  1. 遵循网站的 robots.txt:在下载之前,可以查看网站的 robots.txt 文件,确保遵循网站的抓取规则。

  2. 使用合理的下载速度:为了避免对服务器造成过大压力,可以添加 --limit-rate 选项限制下载速度,例如:

    wget --limit-rate=200k --mirror --convert-links --adjust-extension --page-requisites --no-parent https://baidu.com/
  3. 确保有足够的存储空间:下载整个网站可能需要较多的磁盘空间。

如果你有其他问题或需要更多帮助,随时问我!