现代 TeXes 对 Unicode 的处理

现代 TeXes 对 Unicode 的处理

我可能误解了,但大致如下:

  1. PDF 原则上仍然只能使用 8 位编码向量吗?
  2. 如果不是,LuaTeX/XeTeX 如何处理更大的字形集?

答案1

这只是 Stack Overflow 上发布的一个答案的副本。plinth 写道

在第 3 章的 PDF 参考中,他们对 Unicode 是这样说的:

文本字符串采用 PDFDocEncoding 或 Unicode 字符编码进行编码。PDFDocEncoding 是 ISO Latin 1 编码的超集,并在附录 D 中进行了记录。Unicode 由 Unicode 协会在 Unicode 标准中进行了描述(请参阅参考书目)。对于采用 Unicode 编码的文本字符串,前两个字节必须是 254,后跟 255。这两个字节表示 Unicode 字节顺序标记 U+FEFF,表示该字符串采用 Unicode 标准中指定的 UTF-16BE(大端)编码方案进行编码。(此机制阻止使用 PDFDocEncoding 以两个字符 thorn ydieresis 开头的字符串,这不太可能是单词或短语有意义的开头)。

因此,问题 1 的答案是,即使它曾经是正确的,现在也不正确。由此可见,问题 2 是无关紧要的(对于北美读者来说,这是“无意义的”)。

相关内容