使用 wget 获取一个页面的资源(仅获取其他内容)

使用 wget 获取一个页面的资源(仅获取其他内容)

我已经下载并存储了一个index.htm页面,并且(根据该页面的一些标准)想要使用 wget 来获取所有图像、javascript、css 文件等。浏览器将在显示该页面时下载它们。

我目前使用:

wget --server-response --timeout=120 --base="http://www.example.com/" --force-html --input-file="index.htm"

到目前为止,这有效,但它也会获取所有定义的链接,例如a href="/somesubpage.htm". 如何避免下载网址...?

答案1

由于 wget 不知道如何执行 javascript,因此您只有 2 个解决方案:

  • 使用浏览器向该页面发出请求并查看网络服务器日志。然后对每个网页元素使用 wget。
  • 使用phantomjs。

相关内容