PDF 文件能保证一致地存储纯文本吗?

PDF 文件能保证一致地存储纯文本吗?

PDF 文件以文本格式存储不一致而臭名昭著:如果您在 Word/Writer 中编写一些文本,应用粗体、斜体等,将其打印为 PDF,然后在 Acrobat Reader DC 或任何其他查看器中打开此 PDF 并将文本复制回 Word,则很可能会发现至少有一些格式丢失。通常情况下,您只会得到纯文本。

我的问题是:我是否可以相信这个纯文本与原始文本完全相同(相同的 Unicode 字符,相同的顺序)或者它是否也会以某种不明显的方式被破坏?

答案1

不,PDF 有意将文本更改为“页面描述格式”,即 PDF。例如,即使未破将段落插入 PDF 时,在转换为页面格式时,通常会在每行末尾插入换行符,就像在该页面上显示的那样。

例如,在 PDF 阅读器的屏幕截图中,一个看似完整的段落,

PDF 截图

当以文本形式查看时记事本++

Notepad++ 中的 PDF 文本

除了最后一行以外,在所有行的末尾显示回车符/换行符对。

将文本转换为 PDF 很容易;但从 PDF 转换回文本则比较麻烦。

答案2

你唯一能保证的是,PDF 在视觉上与输入文档相同。PDF 是一种文档分发格式,而不是从一种格式转换为另一种格式。

举例来说,如果您的输入中包含多个文本框,这些文本框在 Word 的各个位置理论上是相互衔接的,那么您就无法保证输出中的文本块是链接的,甚至无法保证输出中的文本块是按相同的顺序排列的,尤其是在通过其他 PDF 查看器或编辑器保存时,这些查看器或编辑器可能会“优化”输出。

答案3

如果您需要将文件从 PDF 转换回来,机器创建的 PDF 文件是最好的选择,而且通常效果很好。

从打印/纸质文档扫描的 PDF 进行转换通常需要大量干预。

有些 OCR 应用程序可能更适合这类工作。

相关内容