wget 将网页完整下载到一个文件和资产文件夹中

wget 将网页完整下载到一个文件和资产文件夹中

我正在尝试在 Chrome 或 Firefox 中模拟右键单击和“另存为,完成”。我尝试了以下操作:

wget -E -H -k -K -p http://gizmodo.com

但这会创建多个文件夹,每个托管资源的域一个文件夹。我也试过

wget -r -N -l inf --no-remove-listing -x http://gizmodo.com

均来自这里,如果有人感兴趣的话。我也试过了这里这里, 和这里但这些都没有达到我想要的效果。

但这并没有下载所有依赖项。我真正想要的是 Chrome 和 Firefox 所做的,即创建一个 index.html 文件,并将所有依赖项文件路径修改为指向位于其旁边的“assets”文件夹中的所有依赖项。

我也尝试了 wget 手册,但找不到比它已经完成的功能更多的功能。这可能吗?

答案1

来自 WGET 手册:

--no-directories (或 -nd)

递归检索时不创建目录层次结构。启用此选项后,所有文件都将保存到当前目录,而不会发生破坏(如果名称出现多次,文件名将获得扩展名 .n)。

--no-host-directories (或 -nH)

禁用主机前缀目录的生成。默认情况下,使用 -r 调用 Wgethttp://fly.srk.fer.hr/将创建以 fly.srk.fer.hr/ 开头的目录结构。此选项禁用此类行为。

--page-requisites (或 -p)

此选项使 Wget 下载正确显示给定 HTML 页面所需的所有文件。其中包括内联图像、声音和引用的样式表。...

--no-parent (或 -np)

递归检索时,切勿上升到父目录。这是一个有用的选项,因为它可以保证只下载特定层次结构以下的文件。

--convert-links (或 -k)

下载完成后,转换文档中的链接,使其适合本地查看。这不仅会影响可见的超链接,还会影响文档中链接到外部内容的任何部分,例如嵌入的图像、样式表链接、非 HTML 内容的超链接等。

这些选项应该有帮助。

相关内容