这是下载包含所有图像和 CSS 文件的网站的正确方法,以便它具有与原始文件相同的布局,但我不知道为什么-K --backup-converted
和-E --adjust-extension
选项是必要的。
网站更新后,如何更新我备份/下载的网站副本?与下载一样吗?
wget -mpHkKEb -t 1 -e robots=off -U 'Mozilla/5.0 (X11; Ubuntu;
Linux x86_64; rv:40.0) Gecko/20100101 Firefox/40.0' http://www.example.com
–m (--mirror)
:打开适合镜像的选项(无限递归下载和时间戳)。-p (--page-requisites)
:下载正确显示给定 HTML 页面所需的所有文件。其中包括内联图像、声音和引用的样式表。-H (--span-hosts)
:在进行递归检索时启用跨主机跨越。–k (--convert-links)
:下载后,转换文档中的链接以供本地查看。-K (--backup-converted)
:转换文件时,备份带有 .orig 后缀的原始版本。影响 -N 的行为。-E (--adjust-extension)
:在文件末尾添加适当的扩展名。-b (--background)
:启动后立即进入后台。如果未通过 -o 指定输出文件,则输出将重定向到 wget-log。-e (--execute)
:执行命令(robots=off)。-t number (--tries=number)
:设置尝试次数数字。-U (--user-agent)
:向 HTTP 服务器标识为代理字符串。如果您发送默认用户代理,某些服务器可能会永久禁止您进行递归下载。
答案1
wget --mirror --convert-links --adjust-extension --page-requisites --no-parent http://example.org
我以前用过这个
各个标志的解释:
--mirror
– 使下载(除其他外)呈递归状态。--convert-links
– 将所有链接(也包括 CSS 样式表之类的内容)转换为相对链接,以便适合离线查看。--adjust-extension
– 根据文件名的内容类型添加适当的扩展名(html 或 css)。--page-requisites
– 下载离线正确显示页面所需的 CSS 样式表和图像等内容。--no-parent
– 递归时不上升到父目录。这对于将下载限制在站点的一部分很有用。