使用 wget 将整个网页(包含所有图像和 CSS)保存到一个文件夹和一个文件中?

使用 wget 将整个网页(包含所有图像和 CSS)保存到一个文件夹和一个文件中?

有没有办法用 wget 模拟浏览器中的“另存为”功能?

当我在浏览器中保存网页时,我会得到一个包含资产(图像,js,css)和索引文件的文件夹,其中包含页面名称:

Nov 28 reddit: the front page of the internet_files
Nov 28 reddit: the front page of the internet.html

但无论如何,当我使用 wget 时,我得到如下信息:

Nov 28  a.thumbs.redditmedia.com
Nov 28  b.thumbs.redditmedia.com
Nov 28  m.reddit.com
Nov 28  out.reddit.com
Nov 28  reddit.com
Nov 28  www.reddit.com
Nov 28  www.redditstatic.com

我尝试使用这些:

wget -E -H -k -K -p https://reddit.com
wget -r -x -mirror https://reddit.com

并得出了以下结论: wget -E -H -k -p -e robots=off https://www.reddit.com

但是他们要么创建了多个文件夹,要么没有下载离线查看页面所需的所有内容。

我该如何设置呢?

答案1

您/WGET 不能。它可以在一次给定的下载中下载所有链接的资源,但由于其抓取的性质,而不是解释的性质(并且不受 HTTP 约束),这会导致多个文件夹。

另外,你的印象太狭隘了:有些网络浏览器可以将页面保存到 MHT 文件/档案中,这甚至是一种标准 - 请参阅https://en.wikipedia.org/wiki/MHTML

相关内容