有没有办法用 wget 模拟浏览器中的“另存为”功能?
当我在浏览器中保存网页时,我会得到一个包含资产(图像,js,css)和索引文件的文件夹,其中包含页面名称:
Nov 28 reddit: the front page of the internet_files
Nov 28 reddit: the front page of the internet.html
但无论如何,当我使用 wget 时,我得到如下信息:
Nov 28 a.thumbs.redditmedia.com
Nov 28 b.thumbs.redditmedia.com
Nov 28 m.reddit.com
Nov 28 out.reddit.com
Nov 28 reddit.com
Nov 28 www.reddit.com
Nov 28 www.redditstatic.com
我尝试使用这些:
wget -E -H -k -K -p https://reddit.com
wget -r -x -mirror https://reddit.com
并得出了以下结论:
wget -E -H -k -p -e robots=off https://www.reddit.com
但是他们要么创建了多个文件夹,要么没有下载离线查看页面所需的所有内容。
我该如何设置呢?
答案1
您/WGET 不能。它可以在一次给定的下载中下载所有链接的资源,但由于其抓取的性质,而不是解释的性质(并且不受 HTTP 约束),这会导致多个文件夹。
另外,你的印象太狭隘了:有些网络浏览器可以将页面保存到 MHT 文件/档案中,这甚至是一种标准 - 请参阅https://en.wikipedia.org/wiki/MHTML