有某种 PDF 到文本转换器吗?

有某种 PDF 到文本转换器吗?

我需要文本形式的 PDF 文件,以便我可以从命令行批量搜索它们。是否有适用于 Ubuntu、OBSD 或类似发行版的转换器?

也许相关的帖子,OCR with Ubuntu这里

答案1

你有很多选择!

pdftotext波普勒已经提到过。

一个名为的 Haskell 程序pdf2line效果很好。

口径ebook-convert命令行程序(或 calibre 本身)是另一种选择;它可以将 PDF 转换为纯文本或其他电子书格式(RTF、ePub),在我看来,它生成的结果比 pdftotext 更好,尽管速度要慢得多。

ebook-convert file.pdf file.txt

阿比字可以在它从命令行知道的任何格式之间进行转换,并且至少可以选择有一个 PDF 导入插件:

abiword --to=txt file.pdf

另一种选择是podofotextextract来自podofo PDF 工具库。我还没有真正尝试过。

如果您结合使用两个 Ghostscript 工具pdf2psps2ascii,您还有另一种选择。

其实我还可以想到一些方法,但暂时就这样吧。 ;)

答案2

您可以在命令行上将 PDF 转换为文本:pdf转文本(乌班图:poppler 工具; OpenBSD:xpdf-utils包)。

您可以使用雷科尔 (乌班图:回忆起来; OpenBSD:没有端口,但有一个用于自由BSD.) 在各种格式化文本文档类型(包括 PDF)中进行搜索。有一个 GUI,它会在幕后自动构建索引。它用于pdftotext将 PDF 转换为文本。

Acrobat Reader(Linux 下至少版本 9)具有有限的多文件搜索功能(您可以搜索目录中的所有文件)。

答案3

pdftotext 可能是您正在寻找的:http://en.wikipedia.org/wiki/Pdftotext除非您要提取的文本确实是图形形式,这在 pdf 文档中并不常见。

答案4

pdftotext 给我带来了各种格式问题(即使有可选的调整)但是互工具转换工作完美

相关内容