有没有命令行实用程序可以查找 PDF 中的字数?
我将使用 pdf 中的字数来估计阅读它所需的时间。我可以使用 获取 PDF 的页数qpdf
,但页数对于阅读一本书所需的时间来说是一个错误的估计,因为一页可能包含很少或很多文本。
实现我的目标的最坏情况是使用pandoc
(或pdftotext
) 将 PDF 转换为纯文本,然后使用wc
来计算单词和字符的数量。但这很糟糕:将 pdf 转换为文本需要时间,他们创建无用的大型文本文件只是为了计算字数。由于 PDF 可能包含数百页,因此该解决方案效率不高。