有某种 PDF 到文本转换器吗？

2024-5-19 • tag-icon

search pdf ocr text

有某种 PDF 到文本转换器吗？

我需要文本形式的 PDF 文件，以便我可以从命令行批量搜索它们。是否有适用于 Ubuntu、OBSD 或类似发行版的转换器？

也许相关的帖子，OCR with Ubuntu这里。

答案1

你有很多选择！

pdftotext从波普勒已经提到过。

有一个名为的 Haskell 程序pdf2line效果很好。

口径的ebook-convert命令行程序（或 calibre 本身）是另一种选择；它可以将 PDF 转换为纯文本或其他电子书格式（RTF、ePub），在我看来，它生成的结果比 pdftotext 更好，尽管速度要慢得多。

ebook-convert file.pdf file.txt

阿比字可以在它从命令行知道的任何格式之间进行转换，并且至少可以选择有一个 PDF 导入插件：

abiword --to=txt file.pdf

另一种选择是podofotextextract来自podofo PDF 工具库。我还没有真正尝试过。

如果您结合使用两个 Ghostscript 工具pdf2ps和ps2ascii，您还有另一种选择。

其实我还可以想到一些方法，但暂时就这样吧。 ;)

答案2

您可以在命令行上将 PDF 转换为文本：pdf转文本（乌班图：poppler 工具; OpenBSD：xpdf-utils包）。

您可以使用雷科尔（乌班图：回忆起来; OpenBSD：没有端口，但有一个用于自由BSD.) 在各种格式化文本文档类型（包括 PDF）中进行搜索。有一个 GUI，它会在幕后自动构建索引。它用于pdftotext将 PDF 转换为文本。

Acrobat Reader（Linux 下至少版本 9）具有有限的多文件搜索功能（您可以搜索目录中的所有文件）。

答案3

pdftotext 可能是您正在寻找的：http://en.wikipedia.org/wiki/Pdftotext除非您要提取的文本确实是图形形式，这在 pdf 文档中并不常见。

答案4

pdftotext 给我带来了各种格式问题（即使有可选的调整）但是互工具转换工作完美

相关内容