如何检测可能的字符代码的范围?

如何检测可能的字符代码的范围?

如果这个问题对于这个论坛来说太基础了,请原谅我。
我三周前开始接触 TeX。

我了解到有不同的 TeX 引擎。
例如,有 TeX、eTeX、pdfTeX、pdfeTeX、LuaTeX、XeTeX。

如果我没记错的话,TeX、eTeX 和 pdfTeX 处理 8 位编码,因此使用这些引擎,可能的字符代码(如、、、、等基元的数值\endlinechar)范围是\newlinechar0-255 。\char\lccode\uccode\catcode

如果我没记错的话,LuaTeX 和 XeTeX 处理 utf8 编码。

这些引擎可能的字符代码范围是多少?

是否有一种方法可以(可扩展且)可靠地检测正在使用的引擎以及可用的字符代码范围?

我问这个问题是为了解决以下问题:

我使用 eTeX'\scantokens来重新标记事物。

根据 eTeX 手册,\scantokens它与以下内容非常相似:

\toks0={...}
\immediate\openout0=file
\immediate\write0{\the\toks0}
\immediate\closeout0
\input file

这意味着在由 的-part\endlinechar处理的每个“行”末尾插入 表示的字符。我想避免或解决在“输入”的最后一“行”中插入 endlinechar 的问题。\input\scantokens

现在我尝试类似的事情:

\scantokens{...\begingroup\ifnum\the\catcode\endlinechar>0 \ifnum\the\catcode\endlinechar>255\else\catcode\endlinechar=14 \fi\fi}\endgroup

对于此代码,假定可能的字符代码范围是 0-255,并且该范围是“硬编码的”。

我想找到一种方法来根据所使用的发动机以及发动机的运行模式来指定该范围。

答案1

luatex 和 xetex 的输入必须是格式正确的 utf-8 编码的 Unicode 字符串,因此字符将在 0 到十六进制 10FFFF(十进制 1114111)的范围内,尽管 luatex 允许从 lua 构建比这更高的代码并用于特殊目的。

luatex 和 xetex 的常规测试是检测引擎特定的命令(例如\directlua和)是否\XeTeXuseglyphmetrics分别定义

您可以使用\endlinechar=-1来抑制 endlinechar 但我不确定这是否总是能达到您想要的效果\scantokens(这完全取决于您想要什么:-)(请注意,luatex 有一个\scantextokens不添加最终的原语\endlinechar

使用 luatex,即使字符在完整的 Unicode 范围内,也\endlinechar最多为 127 个

答案2

看来您依赖于\scantokens在正常的 catcode 制度下对事物进行重新标记。

\scantokens在这种情况下,我建议插入一些在执行-part/retokenization-part时会被识别为注释字符的内容\input
\scantokens{...\begingroup\catcode`\X=14 X}\endgroup

A\scantokens{B\begingroup\catcode`\X=14 X}\endgroup X

\bye

相关内容