将结果放入 mysql 的站点爬虫/蜘蛛

2024-5-27 • tag-icon

有人建议我们使用 mysql 进行网站搜索，因为它将在托管我们的 Web 服务器（nginx）和数据库（mysql）的同一服务器上运行。

由于并非所有页面都是从数据库创建的，因此有人建议我们使用一个可以抓取网站的爬虫程序，将页面 url 和数据放入 mysql 并在其上建立 sphinx 索引。

是否有人知道具有开箱即用的 mysql 存储选项的开源蜘蛛。

谢谢。

我认为 sphider 就是你要找的 - 我们之前用它的时候效果还不错。另外，它还可以索引 pdf 和文档，这非常有用

相关内容