Windows Sharepoint Services 3 PDF 搜索未索引所有单词

Windows Sharepoint Services 3 PDF 搜索未索引所有单词

我们在 Server 2003 R2 Enterprise SP2 机器上安装了 Windows Sharepoint Services 3。我安装了 Adob​​e Reader 8,并配置了 iFilter,而且该程序运行正常。我启动了全面抓取,使用搜索时会返回 PDF 搜索结果。与之前没有 PDF 内容搜索相比,这是一个巨大的变化。目前,业务部门注意到,对于某些词,他找不到合适的 PDF。

从各种迹象来看,似乎有些 PDF 中并非所有单词都已编入索引。有人能帮忙吗?

答案1

就 PDF 中的可搜索文本而言,有两种类型的文件:一种是从 Word/等保存的“一直都是数字化的”文档,另一种是从纸质文件扫描而来,并通过 OCR 来猜测纸上的文字。

iFilter 不会对文档中的文本进行 OCR。如果您的文档最初是由其他软件扫描的,则该软件可能存在问题。几乎所有的 OCR 都不完美,有些甚至很糟糕。您可以在打开文档的情况下使用计算机上的 Acrobat Reader 搜索其中的单词。这应该可以告诉您文档中的 OCR 有多好。

另请注意有帖子称 OCR 文本可能无法在 iFilter 8 中使用,并且您可能需要在服务器上安装 Reader 9。

最后,如果您可以使用 Acrobat Reader 顺利搜索 PDF 中的单词,那么我会获取该文档并在实验室中使用默认设置设置 SharePoint + iFilter,看看 iFilter 是否真的有问题。

答案2

我关注了微软的各种知识库文章,最好的一个,包括你在这里需要的一切,之后仍然无法搜索PDF中的所有文本内容。

我检查过 PDF 本身(在 Reader 中)的单词搜索功能,结果确实如此,所以这不是 OCR 问题。对于我的问题,发现了以下问题,必须进行更改/恢复:

  • 升级到 Reader X 彻底破坏了 PDF 内容搜索。我仍然可以搜索标题和描述,但无法搜索 PDF 内容。我不得不重新安装 Adob​​e Reader 8。
  • 运行搜索服务的服务帐户需要是索引服务器上的完全管理员。

摘要:我必须将服务帐户添加为完全管理员,然后确保再次遵循记录的步骤(在我的情况下是确认),现在瞧,解决了。

相关内容