我需要文本形式的 PDF 文件,以便我可以从命令行批量搜索它们。是否有适用于 Ubuntu、OBSD 或类似发行版的转换器?
也许相关的帖子,OCR with Ubuntu这里。
答案1
你有很多选择!
pdftotext
从波普勒已经提到过。
有一个名为的 Haskell 程序pdf2line
效果很好。
口径的ebook-convert
命令行程序(或 calibre 本身)是另一种选择;它可以将 PDF 转换为纯文本或其他电子书格式(RTF、ePub),在我看来,它生成的结果比 pdftotext 更好,尽管速度要慢得多。
ebook-convert file.pdf file.txt
阿比字可以在它从命令行知道的任何格式之间进行转换,并且至少可以选择有一个 PDF 导入插件:
abiword --to=txt file.pdf
另一种选择是podofotextextract
来自podofo PDF 工具库。我还没有真正尝试过。
如果您结合使用两个 Ghostscript 工具pdf2ps
和ps2ascii
,您还有另一种选择。
其实我还可以想到一些方法,但暂时就这样吧。 ;)
答案2
您可以在命令行上将 PDF 转换为文本:pdf转文本(乌班图:poppler 工具; OpenBSD:xpdf-utils
包)。
您可以使用雷科尔
(乌班图:回忆起来; OpenBSD:没有端口,但有一个用于自由BSD.) 在各种格式化文本文档类型(包括 PDF)中进行搜索。有一个 GUI,它会在幕后自动构建索引。它用于pdftotext
将 PDF 转换为文本。
Acrobat Reader(Linux 下至少版本 9)具有有限的多文件搜索功能(您可以搜索目录中的所有文件)。
答案3
pdftotext 可能是您正在寻找的:http://en.wikipedia.org/wiki/Pdftotext除非您要提取的文本确实是图形形式,这在 pdf 文档中并不常见。
答案4
pdftotext 给我带来了各种格式问题(即使有可选的调整)但是互工具转换工作完美