有没有一个工具可以在很多pdf文件中超快速地搜索关键字?

有没有一个工具可以在很多pdf文件中超快速地搜索关键字?

我有很多技术书籍,并且已经使用了pdfgrep一段时间,但是要全部搜索起来需要花费大量时间。

有人可以推荐我一个 cli 工具来超快速地搜索 pdf 文件吗?

它应该有一个用于缓存目的的下划线数据库 - 类似于locate命令,但仅用于 pdf 的关键字。

谢谢你们! :)

答案1

作为替代方案pdfgrep您可以使用rga

rga默认启用缓存的情况下执行递归搜索。

我与 SSD 上存储的 15 GB PDF 集合进行了快速比较。

$ gtime --format "%Es" pdfgrep --recursive --cache --ignore-case conclusion
2:15:26s # initial run
3:05.30s # with cache

$ gtime --format "%Es" rga --type pdf conclusion
33:26.96s # initial run
1:18.70s  # with cache

$ gdu -sh --apparent-size ~/.cache/pdfgrep
697M    /Users/sschmidt/.cache/pdfgrep

$ gdu -sh --apparent-size ~/Library/Caches/rga
186M    /Users/sschmidt/Library/Caches/rga

因此,比初始运行rga快大约 4 倍,在缓存运行中快大约 2 倍。pdfgrep除此之外,rga缓存的大小仅为pdfgrep缓存的四分之一左右。这当然只是我的具体设置,因此结果可能会根据您的配置而有所不同。

相关内容