有人建议我们使用 mysql 进行网站搜索,因为它将在托管我们的 Web 服务器(nginx)和数据库(mysql)的同一服务器上运行。
由于并非所有页面都是从数据库创建的,因此有人建议我们使用一个可以抓取网站的爬虫程序,将页面 url 和数据放入 mysql 并在其上建立 sphinx 索引。
是否有人知道具有开箱即用的 mysql 存储选项的开源蜘蛛。
谢谢。
答案1
我认为 sphider 就是你要找的 - 我们之前用它的时候效果还不错。另外,它还可以索引 pdf 和文档,这非常有用