可以从用 LaTeX 创建的 PDF 中收集什么类型的数据?

可以从用 LaTeX 创建的 PDF 中收集什么类型的数据?

由于我使用 LaTeX 创建了许多商业文件,并且将这些文件发送给世界各地的不同客户,所以我只想知道 PDF 中是否嵌入了任何可能被法医数据分析师恢复的数据。我经常在 TeX 代码中留下注释,比如说,我希望焦点小组在不断修改以将文档演变为最终形式时能够注意到这些注释;但是,我不希望最终收到这些注释的客户看到这些注释。即使是焦点小组的评论,或任何从互联网上提取数据的小工具,也可能暴露来源。

答案1

PDF 在创建时会包含一些基本元数据。最明显的是,您将获得生成 PDF 的二进制文件的名称,因此感兴趣的人可以发现您使用了 pdfTeX v1.40.11(或其他版本)。如果您确实使用了 MiKTeX(因此适用于 Windows),那么这可能包括您使用 MiKTeX(因此适用于 Windows)。您还可以自己添加元数据,例如使用设置的文档的作者或标题hyperref。您可以跳过后者,前者可以通过对 PDF 进行后处理来覆盖。即使如此,您的字体使用可能仍会泄露 TeX 的使用:例如,TeX 世界之外的人不太可能使用 Computer Modern。

然而,不是出现在 PDF 中的文本与输入中的注释或删除的材料有关(有一个例外)。TeX 读取的文本没有进入输出阶段,因此根本不在 PDF 中。唯一的例外是如果您剪切一个框或图形:整个框都“在那里”,但只显示未剪切的部分。

相关内容