在 Ubuntu 上索引 PDF 文件

在 Ubuntu 上索引 PDF 文件

我正在寻找 Ubuntu 中的解决方案,以便索引 PDF(和 ps?)文件以供以后搜索。

标准如下:

  1. 兼容性:提取文本通常有所不同,具体取决于创建 PDF 时使用的软件。有些 PDF 还可以“锁定”,我想应该尊重这一点。
  2. 搜索功能:通配符、正则表达式、“模糊”匹配。
  3. 搜索速度

就我而言,我想索引一个学术期刊文章文件夹,因此要求它无论使用什么软件创建 PDF 都能始终如一地工作。我已经在使用参考文献管理器,所以不想替换它。

例如:Beagle 的一个良好前端和一个允许它索引 PDF 的插件就很完美了。

答案1

Tracker 的功能与 Beagle 和 Strigi 相同,但与 Beagle 不同的是,它是用纯 C 编写的(Beagle 是一个 Mono 应用程序)。据说,它比 Beagle 快很多,尽管我自己没有做过计算。

我找不到 Tracker 的链接,但我确信它在默认的 Ubuntu 存储库中。

答案2

Lucene对 PDF、HTML、Microsoft Word 和 OpenDocument 进行全文索引。它只是一个库,但有多个应用程序/CMS 使用它,或者您可以将它用作您自己的解决方案的基础。

它是免费软件(Apache 许可证)。

编辑:

如果你正在寻找具有前端的东西,你可以考虑 Beagle 或 Strigi:

比格犬

斯特里吉

答案3

我用谷歌桌面用于在 Linux 上搜索。不免费,但它是我发现的最好的。

相关内容