我正在寻找一种“一键式”方法,可以将任何 PDF 转换为纯文本。最好在 OSX 或 Linux 上进行。
理想情况下,解决方案应该包括 OCR 功能,但这不是必需的。
首要任务是拥有可以无需配置就获取任何文件的东西。
答案1
有pdf其中包括pdftotext
二进制文件。
Pdftotext 将便携式文档格式 (PDF) 文件转换为纯文本。
在 Linux 上有一个可用的安装程序。它似乎也包含在poppler-utils
软件包中。在 OS X 上,你可以使用自制(首先安装)然后使用
brew install homebrew/x11/xpdf
它将下载源文件并为 OS X 进行编译。之后,只需像这样使用它:
pdftotext your_pdf_file.pdf
这将生成一个纯文本文件。还有几个选项,请查看man pdftotext
更多详细信息。
另一种方法是波普勒在 OSX 中:
brew install poppler
在 Debian 和朋友们
apt-get install poppler-utils
答案2
适用于 Windows 的一个好工具是A-PDF文本提取器