我们为客户提供 Magento 和 Typo3 安装。为了提高 QA 质量,我们希望使用自动链接检查器来自动检查损坏和/或过时的链接。我们希望检查所有在其自身域内的链接,以及可能向外的链接,但不抓取外部域。
但由于商店的性质,链接数量可能会稍微多一些。
到目前为止,我们已经使用了linkchecker
(Linux 脚本)和Xenu
(Windows GUI 工具):
- Linkchecker 在 4 天内几乎陷入停滞,没有得出结论。
- Xenu 一开始速度非常快,但是作为一个 32 位应用程序,它在抓取了大约 300k 个链接(共 1.4m)之后就停止了,并且还提示内存不足。
我知道需要存储已经抓取的 URL 以检查新 URL 是否等于旧 URL,而不需要重新检查。
是否存在一种工具、网站或其他解决方案,可以抓取如此规模的网站并呈现某种结果(只有断开的链接才会很好)?
答案1
Dabu,你有没有尝试过逐个目录地抓取你的站点?如果我没记错的话,Xenu 提供了这样的功能。
您也可以尝试使用我们的Site Visualizer 网络爬虫完成您的任务。我不确定它是否能够抓取所有 140 万个链接,因为我们还没有在如此大型的网站上尝试过。它还允许仅抓取某些目录。
下载试用版并安装,然后创建新项目并取消选中以下选项爬行选项卡以提高速度并尽量减少占用的资源:
- 统计字数
- < 图片 >
- < 链接 >
- < 脚本 >
- 线程数设置为 25
- URL 访问超时设置为 10
您还可以定义要抓取的特定目录(或多个目录)包含 URL项目选项。例如,您可以只抓取您的 QA 目录,因为它包含大多数断开的链接。在包含 URL对话框中输入“/QA/”(不带引号)并单击“确定”。
爬取完成后,双击无效链接客户端错误响应(4xx)报告报告选项卡站点可视化工具主窗口。
该应用程序的试用版功能齐全,因此您可以免费使用 30 天。