有没有比 pdftotext 更好的 pdf 转文本转换器？

Question 1

如果你正在使用pdf转文本您可以使用该-layout标志来保留输入 pdf 文件页面上的文本布局：

pdftotext -layout input.pdf output.txt

Answer

如果你正在使用pdf转文本您可以使用该-layout标志来保留输入 pdf 文件页面上的文本布局：

pdftotext -layout input.pdf output.txt

Question 2

您可以ebook-convert尝试口径。

如果有什么问题的话，我想说它的错误在于另一个方面：换行太多。

我肯定会考虑的另一件事是使用pdfreflow，然后将HTML转换为TXT。

Answer

您可以ebook-convert尝试口径。

如果有什么问题的话，我想说它的错误在于另一个方面：换行太多。

我肯定会考虑的另一件事是使用pdfreflow，然后将HTML转换为TXT。

Question 3

作为开源（和自动化）的粉丝，我不想这么说，但我刚刚得到的最佳结果（在相当大的复杂 PDF 上）是在 Adobe Reader 中打开它，然后选择文件|另存为文本。

（我正在进行文本分析实验的预处理，而不是作为读者，但我认为我的第一选择和第二选择是相同的。）

我一直在并排比较输出。我的第二个选择是 ebook-convert。

Adobe：保留 FF 作为分页符，保留页码，未将标题/段落转换为单行，但已修复连字符。PDF 中隐藏的垃圾未输出。正确获取了章节开头的大写字母，例如“The”，而不是“T he”甚至“T he”。

电子书转换：保留页码，并在页眉/页脚中隐藏一些垃圾（但没有 FF）。将大多数段落转换为单行。但它错过的是双倍行距！项目符号并不总是与文本对齐。在章节开头正确显示“The”。

pdftotext（不带 --layout）：还不错，项目符号排列整齐，但页眉/页脚有杂音。FF 在其中。连字符已删除。最糟糕的是章节开头的大写字母：“T\n\nhe”。

pdftotext（带有 --layout）：类似，但缩进更多。“T he” 表示章节开始。

pdftohtml >> pdfreflow >> htmltotext：删除了页码，但页眉/页脚中仍有垃圾内容。“T he”表示章节开始。删除了连字符。（每个段落使用多行，但它们与其他版本中的换行符不同！）

Answer