wget 可以*打印*页面依赖项 URL 吗?

wget 可以*打印*页面依赖项 URL 吗?

作为一个可能的解决方法另一个问题,是否有可能使wget 打印它在目标文档中找到的 URL它认为是页面必需条件吗?我宁愿不为我正在处理的简单任务构建抓取代码。

答案1

你可以这样做:

wget -nv -p -nd --delete-after <url>

这将输出类似的内容:

2017-06-01 21:37:41 URL:<url> [19101] -> "index.html.3" [1]
2017-06-01 21:37:42 URL:<url>robots.txt [24/24] -> "robots.txt" [1]
2017-06-01 21:37:42 URL:<url>rc/1502.css [19106/19106] -> "1502.css" [1]
2017-06-01 21:37:42 URL:<url>favicon.ico [5390/5390] -> "favicon.ico" [1]
2017-06-01 21:37:42 URL:<url>avatar/nopic.jpg [893/893] -> "nopic.jpg

可以将其快速转换或过滤为可能适合您需求的内容。

相关内容