用于科学交流的 Unicode——有用但不一致？（特别是上标/下标）

Question

Unicode 是一种编码标准纯文本。因此，数学文本中使用的任何符号都可以编码为 Unicode 字符，并且已经对大量此类字符进行了编码。这个过程正在进行中，如果新字符确实被用户接受，则会添加它们。

上标和下标本身不是纯文本，而是“富文本”，就像斜体、粗体、特定字体、颜色、背景、边框和动画字母一样。上标“2”仍然是字符“2”，只是位置凸起，而且通常尺寸较小。从这个角度来看，我们可以说上标和下标根本不需要编码。可以使用普通字符，也可以使用纯文本级别以外的设备，或者可以使用“更高级别的协议”，例如文字处理器中的命令、样式设置、HTML 或 MathML 标记等。

因此，问题实际上是为什么上标和下标被纳入 Unicode，而不是为什么它们不构成统一的集合。一个原因是其他字符代码有上标和下标字符。Unicode 必须包括它们。另一个原因在注释中给出XML 和其他标记语言中的 Unicode: “上标和下标字母和数字在某些形式的语音或音素转录中非常常见，其中样式的使用既不方便，又容易在导出为纯文本时出现数据完整性问题。特别是对于语音转录中的上标或下标字母，从上标或下标更改为常规样式会改变其含义。请注意，转录中的此类使用不仅限于字母：上标小数字通常用于表示声调。当用于这些目的时，应保留这些字符，并且不应使用标记。”

但是，添加上标和下标版本任何字符意味着要添加大约 200,000 个字符。接下来，有人会想要任何字符的斜体和粗体版本，依此类推，这样我们的编码空间就会用尽。在此之前，排版师会精神崩溃：他们真的不想为这样的字符设计字形（其中大多数永远不会使用）。

这就是为什么引用的文件补充道：“在数学上下文（MathML）中使用时，建议对上标和下标始终使用样式标记。这是因为数学布局不仅允许单个符号，还允许整个表达式以常规、嵌套的方式上标或下标。”

Answer 1

Unicode 是一种编码标准纯文本。因此，数学文本中使用的任何符号都可以编码为 Unicode 字符，并且已经对大量此类字符进行了编码。这个过程正在进行中，如果新字符确实被用户接受，则会添加它们。

上标和下标本身不是纯文本，而是“富文本”，就像斜体、粗体、特定字体、颜色、背景、边框和动画字母一样。上标“2”仍然是字符“2”，只是位置凸起，而且通常尺寸较小。从这个角度来看，我们可以说上标和下标根本不需要编码。可以使用普通字符，也可以使用纯文本级别以外的设备，或者可以使用“更高级别的协议”，例如文字处理器中的命令、样式设置、HTML 或 MathML 标记等。

因此，问题实际上是为什么上标和下标被纳入 Unicode，而不是为什么它们不构成统一的集合。一个原因是其他字符代码有上标和下标字符。Unicode 必须包括它们。另一个原因在注释中给出XML 和其他标记语言中的 Unicode: “上标和下标字母和数字在某些形式的语音或音素转录中非常常见，其中样式的使用既不方便，又容易在导出为纯文本时出现数据完整性问题。特别是对于语音转录中的上标或下标字母，从上标或下标更改为常规样式会改变其含义。请注意，转录中的此类使用不仅限于字母：上标小数字通常用于表示声调。当用于这些目的时，应保留这些字符，并且不应使用标记。”

但是，添加上标和下标版本任何字符意味着要添加大约 200,000 个字符。接下来，有人会想要任何字符的斜体和粗体版本，依此类推，这样我们的编码空间就会用尽。在此之前，排版师会精神崩溃：他们真的不想为这样的字符设计字形（其中大多数永远不会使用）。

这就是为什么引用的文件补充道：“在数学上下文（MathML）中使用时，建议对上标和下标始终使用样式标记。这是因为数学布局不仅允许单个符号，还允许整个表达式以常规、嵌套的方式上标或下标。”

用于科学交流的 Unicode——有用但不一致？（特别是上标/下标）

答案1

相关内容