我们有一个 IBM Notes 程序数据库,它使用单独的数据库来存储附加了最新程序的当前副本的附件文档。该数据库是全文索引,用于搜索程序。大多数程序都是 Word 文档,似乎没有问题,但有一种特定类型的程序存储为 PDF。我们遇到的问题与 PDF 有关。似乎搜索不会返回任何内容,除了包含搜索短语的 Word 文档,即使有许多 PDF 包含搜索短语。是否有设置或需要设置的东西来让它找到 PDF?这些是真正的 PDF,而不是 TIF。MJ
答案1
不幸的是,您不能使用 Torsten 的答案。Domino 从 10.0 版开始使用 Apache Tika,而 Domino 9.x 及之前的版本都使用了 Verity Keyview 过滤器库。PDF 是否曾经被编入索引?
为了解决这个问题,我可能会尝试启用 INI DEBUG_FT_STREAM=2049。您无需重新启动服务器。重建数据库的索引(加载 updall -x mydbname)。如果 pdf 正在被处理,您应该会看到一条日志行,其中显示以下内容之一:
“索引附件对象:'myattachment.pdf' 大小 = 65536,使用 Keyview”
“索引附件对象:'myattachment.pdf' 大小 = 65536,使用暴力破解”
如果这两个都没有出现,那么您可能需要进一步挖掘。如果出现了“Brute Force”,那么,是的,PDF 中的某些内容正在被索引,但谁知道是什么。Brute Force 只是快速删除它能找到的任何 ASCII 文本,因此索引结果可能非常不准确。
答案2
正如你所读到的此链接有很多附件类型默认情况下没有被索引:
默认情况下,Tika 1.18 支持的所有文件格式都经过全文索引,但以下格式除外:
.au、.bqy、.cca、.dbd、.dll、.exe、.gif、.gz、.img、.jar、.jpg、.mov、.mp3、.mpg、.msi、.nsf、.ntf、.p7m、.p7s、.pag、.pdb、.png、.rar、.sys、.tar、.tar、.tif、.wav、.wpl、.z、.zip。
如您所见:PDF 不是其中之一。但是:有一个 notes.ini 条目,可以设置将特殊类型添加到该黑名单/替换该黑名单:
要定义自己的附件类型列表以允许全文索引,请将以下 notes.ini 设置添加到 Domino 服务器或 Notes 客户端:
FT_USE_MY_ATTACHMENT_WHITE_LIST=1 ...配置所有数据库上允许的文件类型。FT_INDEX_FILTER_ATTACHMENT_TYPES
=*。格式,*.格式在哪里格式是一种文件格式。格式之间使用逗号。
可能是您的某位管理员设置了该 ini 参数以排除 pdf 文件。