PDF 到文本转换器

PDF 到文本转换器

我正在寻找一种“一键式”方法,可以将任何 PDF 转换为纯文本。最好在 OSX 或 Linux 上进行。

理想情况下,解决方案应该包括 OCR 功能,但这不是必需的。

首要任务是拥有可以无需配置就获取任何文件的东西。

答案1

pdf其中包括pdftotext二进制文件。

Pdftotext 将便携式文档格式 (PDF) 文件转换为纯文本。

在 Linux 上有一个可用的安装程序。它似乎也包含在poppler-utils软件包中。在 OS X 上,你可以使用自制(首先安装)然后使用

brew install homebrew/x11/xpdf

它将下载源文件并为 OS X 进行编译。之后,只需像这样使用它:

pdftotext your_pdf_file.pdf

这将生成一个纯文本文件。还有几个选项,请查看man pdftotext更多详细信息。

另一种方法是波普勒在 OSX 中:

brew install poppler

在 Debian 和朋友们

apt-get install poppler-utils

答案2

适用于 Windows 的一个好工具是A-PDF文本提取器

相关内容