将结果放入 mysql 的站点爬虫/蜘蛛

将结果放入 mysql 的站点爬虫/蜘蛛

有人建议我们使用 mysql 进行网站搜索,因为它将在托管我们的 Web 服务器(nginx)和数据库(mysql)的同一服务器上运行。

由于并非所有页面都是从数据库创建的,因此有人建议我们使用一个可以抓取网站的爬虫程序,将页面 url 和数据放入 mysql 并在其上建立 sphinx 索引。

是否有人知道具有开箱即用的 mysql 存储选项的开源蜘蛛。

谢谢。

答案1

我认为 sphider 就是你要找的 - 我们之前用它的时候效果还不错。另外,它还可以索引 pdf 和文档,这非常有用

http://www.sphider.eu/

相关内容