除了 DRKSpider 之外,还有什么好的网络爬虫吗?

除了 DRKSpider 之外,还有什么好的网络爬虫吗?

我正在查看 DRKSpider 以查找我们生产服务器中网站的问题,但似乎它的导出功能会生成不同的输出(具有不同的内容)。

我的目标是找到一个好的工具,可以显示每种可能为错误 404、500、403 等的状态代码。

你们能否推荐一些开源工具来抓取网站以列出与错误相关的所有服务器代码?

答案1

我认为最困难的部分是大多数开源工具不会使用 js 和 css 引擎实现完整的 DOM。因此,您可能会遇到这样的问题:即使使用 wget 也无法在您的网站上发现损坏的 java 脚本问题。如果您试图找出您的网站可能为用户生成哪些错误,您应该考虑实现一个支持 js/css/等的蜘蛛。例如:

http://atomz.com/(最多可免费 10,000 页)

您还可以使用@mailq 提到的谷歌网站管理员工具,以下是有关其抓取错误部分的更多详细信息:

http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=35120&ctx=cb&src=cb&cbid=g2fqlm56h5t&cbrank=0

最后,如果您还没有这样做,您应该查看日志中是否存在这些错误并跟踪引荐来源信息,以便您也可以调查它们。

相关内容