构建内部网搜索

构建内部网搜索

在工作中,我们在许多不同的网站(维基、产品文档、票务系统等)中存储了大量信息,其中许多都需要身份验证。

我对通过单一方式搜索各种孤岛非常感兴趣,业余时间我研究过 Nutch、Grub、Django + Haystack 等。但这些都不是像 Google Mini 或 Google Search Appliance 那样的完整解决方案。

有人用这些工具的混合体构建了一个基本的内联网搜索引擎吗?你对如何构建它有什么建议吗?我喜欢 Django,Haystack 似乎是一个相当流行的搜索解决方案,但我需要连接一个可以支持爬取经过身份验证的站点的爬虫。

答案1

Vivisimo 的 Velocity是好产品,但是价格昂贵。

答案2

看一眼Lucene来自 Apache 基金会。也可以看看他们的供电wiki 页面,也许你甚至会发现一个已经在使用 lucene 的项目。

相关内容