我有很多技术书籍,并且已经使用了pdfgrep
一段时间,但是要全部搜索起来需要花费大量时间。
有人可以推荐我一个 cli 工具来超快速地搜索 pdf 文件吗?
它应该有一个用于缓存目的的下划线数据库 - 类似于locate
命令,但仅用于 pdf 的关键字。
谢谢你们! :)
答案1
rga
默认启用缓存的情况下执行递归搜索。
我与 SSD 上存储的 15 GB PDF 集合进行了快速比较。
$ gtime --format "%Es" pdfgrep --recursive --cache --ignore-case conclusion
2:15:26s # initial run
3:05.30s # with cache
$ gtime --format "%Es" rga --type pdf conclusion
33:26.96s # initial run
1:18.70s # with cache
$ gdu -sh --apparent-size ~/.cache/pdfgrep
697M /Users/sschmidt/.cache/pdfgrep
$ gdu -sh --apparent-size ~/Library/Caches/rga
186M /Users/sschmidt/Library/Caches/rga
因此,比初始运行rga
快大约 4 倍,在缓存运行中快大约 2 倍。pdfgrep
除此之外,rga
缓存的大小仅为pdfgrep
缓存的四分之一左右。这当然只是我的具体设置,因此结果可能会根据您的配置而有所不同。