Patgen 将为 UTF-8 语言创建连字词典

Question 1

首先，无论你打算实现什么，它都无法与“经典”TeX 兼容。这是由于 Knuth 的设计决策——今天我们知道这是不幸的，但在编写 TeX 时，这一点并不那么明显：连字符模式应用于字形索引并且不输入字符代码。由于高棉语连字符超过 256 个，因此无法应用标准连字算法。

如今，只有 luatex 才能原生规避这一设计问题，它允许通过应用 lua 程序或过滤器来操纵输入数据流。不过，我不知道是否有人已经编写了这种“早期”连字符所需的 lua 代码。

现在回到你的问题。patgen 程序完全不知道它处理什么；唯一的限制是它不能处理超过 243 个实体：8 位范围的 256 个字符减去数字 0-9 和字符“.”、“-”和“*”（如果需要，可以映射到不同的字符）。由于高棉字符的数量少于 128，patgen能可用于创建模式。

首先，您必须定义从 Unicode 到 8 位编码的临时映射（并提供从该映射到该映射的转换器）。一个简单的选择可能是简单地从 Unicode 值中剥离高字节，即，将 U+1780-U+17FF 映射到 0x80-0xFF。然后设置翻译文件 - 与您上面使用 Unicode 尝试的方式完全相同，但这次使用 8 位编码 - 运行 patgen，然后转换回来。

您可以查阅“wortliste”存储库以获取有关如何设置 shell 脚本等以促进模式创建过程的更多信息：

http://repo.or.cz/w/wortliste.git/tree

特别令人感兴趣的可能是剧本skripte/make-full-pattern.sh。

Answer

首先，无论你打算实现什么，它都无法与“经典”TeX 兼容。这是由于 Knuth 的设计决策——今天我们知道这是不幸的，但在编写 TeX 时，这一点并不那么明显：连字符模式应用于字形索引并且不输入字符代码。由于高棉语连字符超过 256 个，因此无法应用标准连字算法。

如今，只有 luatex 才能原生规避这一设计问题，它允许通过应用 lua 程序或过滤器来操纵输入数据流。不过，我不知道是否有人已经编写了这种“早期”连字符所需的 lua 代码。