PDF 以文本文件形式打开时,内容为人类可读的内容

PDF 以文本文件形式打开时,内容为人类可读的内容

当我将一些 PDF(使用 Tex 创建)作为文本文件打开时,我注意到有时内容或多或少是人类可读的。对于某些文档,我几乎可以读取所有内容,而其他文档仅包含诸如/Length、或 之/Type /Page类的内容,但其余内容则不可读。endstreamendobj

显然,这可以通过命令在 Tex 中控制\pdfcompresslevel

但我想知道:对于文档(例如科学论文)推荐的设置是什么?

让原始 PDF 文件尽可能易于阅读是否有好处(我认为这会增加 PDF 的文件大小)?还是让文件尽可能不易阅读更好?还是两者兼而有之?

这些选项的优点/缺点是什么?

答案1

如果你看一下PDF 规范您会发现它是一种用于指定页面布局的语言。PDF 中的“程序”(即 egpdflatex写入的内容)是一些句子,提供要使用的字体和页面上的确切位置等内容,并且很多(也许大多数)或多或少是要显示的逐字文本。您可以定义宏来做很多事情,例如编写一些重复的文本或打包常用设置。但在 PDF 中,您还可以编写程序在页面上显示任意曲线,或通过放置彩色点来绘制图片。

我确信您会发现 PDF 文件片段是由一些复杂的表格或复杂的数学公式生成的,或者甚至只是 TeX 行填充算法真正发挥作用的文本,而不是人类可读的。

在大多数情况下,请将其视为一种不透明格式,就像编译器的二进制输出一样。您可以诱使许多编译器提供汇编语言输出,但您几乎从来不会想阅读它。

相关内容