在工作中,我们在许多不同的网站(维基、产品文档、票务系统等)中存储了大量信息,其中许多都需要身份验证。
我对通过单一方式搜索各种孤岛非常感兴趣,业余时间我研究过 Nutch、Grub、Django + Haystack 等。但这些都不是像 Google Mini 或 Google Search Appliance 那样的完整解决方案。
有人用这些工具的混合体构建了一个基本的内联网搜索引擎吗?你对如何构建它有什么建议吗?我喜欢 Django,Haystack 似乎是一个相当流行的搜索解决方案,但我需要连接一个可以支持爬取经过身份验证的站点的爬虫。
答案1
Vivisimo 的 Velocity是好产品,但是价格昂贵。