我想抓取我的网站并生成内部和出站链接的列表,以及它们的最终目的地和 HTTP 代码(至少对于内部链接)。我该怎么做?
请注意:除了在页面中找到链接外,我不关心页面的内容。
答案1
可以考虑以下几点:
http://www.httrack.com- 虽然它是为下载网站而构建的,但您只能生成包含所有链接的报告。
http://scrapy.org/download/- 我认为它最适合您的需要。
我个人在 Windows 上使用过 HtTrack。它也适用于 Linux。如果您需要更多详细信息,请添加评论。