我的网站的页面数量已超出 Google 自定义搜索的页面数量限制,因此很多结果在我们的网站搜索中都找不到。
我一直在阅读有关 Lucene、Nutch、Solr 等的文章,我想知道我是否需要在一台服务器上运行这些程序,该服务器还运行网站(在 nginx 上)和我们的 mysql 服务器。我们有 2 GB 的 RAM。
我将非常感激任何有关迁移到新站点搜索的建议。
答案1
有多少页面超出了 Google 自定义搜索的限制(只是想知道)?
我建议使用狮身人面像,Lucene 在索引几千个项目时没问题,但是超过这个数目就无法使用了,搜索速度慢得令人难以忍受,重新构建索引需要几个小时。
我们在配备 1GB RAM 的 Rackspace 云服务器上运行 Sphinx,同时还运行网站运行所需的其他服务(Apache、PHP、MySQL、Memcached 等),并且性能出色。
我们目前运行 Sphinx 的网站有超过 70,000 篇文章,搜索完成速度非常快,它可以在大约 11 秒内重建整个索引。我选择 Sphinx 是基于其他开发人员的推荐,以及我了解到一些大型网站依赖它作为搜索引擎(纽温就是其中之一)。