我已经下载并存储了一个index.htm
页面,并且(根据该页面的一些标准)想要使用 wget 来获取所有图像、javascript、css 文件等。浏览器将在显示该页面时下载它们。
我目前使用:
wget --server-response --timeout=120 --base="http://www.example.com/" --force-html --input-file="index.htm"
到目前为止,这有效,但它也会获取所有定义的链接,例如a href="/somesubpage.htm". 如何避免下载网址...?
答案1
由于 wget 不知道如何执行 javascript,因此您只有 2 个解决方案:
- 使用浏览器向该页面发出请求并查看网络服务器日志。然后对每个网页元素使用 wget。
- 使用phantomjs。。