我想在 pdf 文件中查找单词不一定连在一起的文本信息。例如,我想输入“Super”和“question”,并在输出中得到以下句子(如果它在 pdf 文件中):
Super User 是一个面向计算机爱好者和高级用户的问答网站。
我该如何实现这一点?如果这不可能,我可以在 txt 中实现吗?最好解决方案还应显示搜索上下文(上下几行)并且速度足够快(通过索引?)。
非常感谢!
答案1
PDF 是否保存为可搜索文本。如果是,请确保 PDF 类型的索引属性包括内容搜索(要启用的选项)。
如果没有,您需要打印并使用 OCR 应用程序(例如 Abbey Fine Reader)进行扫描,然后使用该应用程序的搜索功能。
答案2
我正在使用免费工具文档提取器。它可以索引多个文件,然后快速搜索所有文件。它还支持您想要的邻近搜索。以下是搜索手册的相关部分:
邻近搜索允许您查找彼此相距特定距离内的单词。要进行邻近搜索,请在短语末尾放置波浪符号(“~”),后跟距离值。— 请注意,这在语法上类似于模糊搜索。例如,要搜索包含 wikipedia 和 lucene 且彼此相距 10 个单词内的文档,请输入:“wikipedia lucene”~10