我创建了两个测试文档。如下foo.tex
:
\documentclass{article}
\usepackage[T1]{fontenc}
\begin{document}
Gödel
\end{document}
下面是foo2.tex
:
\documentclass{article}
\usepackage[T1]{fontenc}
\begin{document}
G\"odel
\end{document}
它们都是用 pdflatex 编译的。生成的 PDF 看起来和“感觉”都一样:在这两个 PDF 中,SumatraPDF 都会找到搜索字符串“Gödel”。在这两个 PDF 中,我都可以复制该词并将其粘贴到文本编辑器中。如果我在 Windows 的搜索框中输入“Gödel”,它会找到这两个 PDF。
但是,如果我将 PDF 与 diff 进行比较,结果发现它们并不相同。有什么区别?有什么理由更喜欢一个版本而不是另一个版本?
编辑:
我被要求澄清这个问题。我关心的不是这些文件是否看了相同,所以关于比较两个 PDF 的视觉外观的老问题并没有真正帮助。我担心的是文件表现以同样的方式,例如,如果搜索引擎真的将 ö 识别为变音符号等等。我想知道是否\"o
会插入“真实字符”,或者它是否会用不同的字形组成一些东西。
答案1
如果您准备了这两个文件,要求不进行 PDF 压缩(将它们称为one.tex
和two.tex
):
\documentclass{article}
\usepackage[T1]{fontenc}
\pdfcompresslevel 0\relax
\begin{document}
Gödel
\end{document}
和
\documentclass{article}
\usepackage[T1]{fontenc}
\pdfcompresslevel 0\relax
\begin{document}
G\"odel
\end{document}
并用 编译它们pdflatex
,然后查看差异:
[romano:~/tmp] 25s % diff -u -a one.pdf two.pdf
--- one.pdf 2021-03-12 15:48:03.703754062 +0100
+++ two.pdf 2021-03-12 15:46:57.370760208 +0100
@@ -79,8 +79,8 @@
<<
/Producer (pdfTeX-1.40.20)
/Creator (TeX)
-/CreationDate (D:20210312154803+01'00')
-/ModDate (D:20210312154803+01'00')
+/CreationDate (D:20210312154657+01'00')
+/ModDate (D:20210312154657+01'00')
/Trapped /False
/PTEX.Fullbanner (This is pdfTeX, Version 3.14159265-2.6-1.40.20 (TeX Live 2019/Debian) kpathsea version 6.3.1)
>>
@@ -162,7 +162,7 @@
/W [1 2 1]
/Root 11 0 R
/Info 12 0 R
-/ID [<6BDFF40DFF895060C9767118A4C7BD04> <6BDFF40DFF895060C9767118A4C7BD04>]
+/ID [<0A94E0543DCD0E80E4351C51D3C26760> <0A94E0543DCD0E80E4351C51D3C26760>]
/Length 56
>>
stream
您会看到,正如@campa 在评论中所建议的那样,差异仅存在于元数据中。