使用 wget 复制具有适当布局的网站以供离线浏览

使用 wget 复制具有适当布局的网站以供离线浏览

这是下载包含所有图像和 CSS 文件的网站的正确方法,以便它具有与原始文件相同的布局,但我不知道为什么-K --backup-converted-E --adjust-extension选项是必要的。

网站更新后,如何更新我备份/下载的网站副本?与下载一样吗?

wget -mpHkKEb -t 1 -e robots=off -U 'Mozilla/5.0 (X11; Ubuntu;
Linux x86_64; rv:40.0) Gecko/20100101 Firefox/40.0' http://www.example.com
  • –m (--mirror):打开适合镜像的选项(无限递归下载和时间戳)。

  • -p (--page-requisites):下载正确显示给定 HTML 页面所需的所有文件。其中包括内联图像、声音和引用的样式表。

  • -H (--span-hosts):在进行递归检索时启用跨主机跨越。

  • –k (--convert-links):下载后,转换文档中的链接以供本地查看。

  • -K (--backup-converted):转换文件时,备份带有 .orig 后缀的原始版本。影响 -N 的行为。

  • -E (--adjust-extension):在文件末尾添加适当的扩展名。

  • -b (--background):启动后立即进入后台。如果未通过 -o 指定输出文件,则输出将重定向到 wget-log。

  • -e (--execute):执行命令(robots=off)。

  • -t number (--tries=number):设置尝试次数数字

  • -U (--user-agent):向 HTTP 服务器标识为代理字符串。如果您发送默认用户代理,某些服务器可能会永久禁止您进行递归下载。

答案1

wget --mirror --convert-links --adjust-extension --page-requisites --no-parent http://example.org

我以前用过这个

使用以下方式创建站点的离线镜像wget

各个标志的解释:

  • --mirror– 使下载(除其他外)呈递归状态。
  • --convert-links– 将所有链接(也包括 CSS 样式表之类的内容)转换为相对链接,以便适合离线查看。
  • --adjust-extension– 根据文件名的内容类型添加适当的扩展名(html 或 css)。
  • --page-requisites– 下载离线正确显示页面所需的 CSS 样式表和图像等内容。
  • --no-parent– 递归时不上升到父目录。这对于将下载限制在站点的一部分很有用。

相关内容