为什么 bash 会删除其他数字？

Question

我设法在 Ubuntu 17.10 (glibc 2.26) 和 Ubuntu 18.04 (glibc 2.27) 上重现这个问题，但它似乎在 Ubuntu 18.10 (glibc 2.28) 上得到了修复

问题在于 localedata，更具体地说是 en_US.utf8 的 LC_COLLATE 数据（实际上，该排序规则数据来自大多数语言环境中包含的 ISO 14651 文件，因此它可能也会影响所有其他 utf8 语言环境。）

localeddata 来自 glibc，并且该错误似乎存在于该处（尽管发行版对该数据的自定义程度相当高，因此 glibc <2.28 的其他发行版可能不会出现此问题。）

事实上，glibc 2.28 公告开始列出新功能：

ISO 14651 的本地化数据已更新，以匹配该标准的 2016 年第 4 版版本，这与 Unicode 9.0.0 提供的数据匹配。此更新对 Unicode 字符的排序规则进行了重大改进。

查看提交，这是对本地数据的巨大修改，所以这可能就是修复错误的原因！

简而言之，这两个符号（U0030，即“0”，U0660，即阿拉伯-印度语零“٠”）的排序问题在于，当使用strcoll(3)，可以通过这个简短的测试来演示（在幕后sort使用）：strcoll

ubuntu-18.04$ { echo 0; echo -e '\u0660'; echo 0; } | sort
0
٠
0

在 glibc 2.28 上：

ubuntu-18.10$ { echo 0; echo -e '\u0660'; echo 0; } | sort
0
0
٠

正如您所看到的，在较旧的 glibc 上，它不会对阿拉伯-印度语零“٠”进行重新排序，无论是在“0”之前还是之后，这证明它们的校对相同。

查看 glibc 源代码，我们可以理解为什么会出现问题。

在里面ISO 14651 的 glibc 2.27 源，可以找到如下定义：

<U0030> <0>;<BAS>;<MIN>;IGNORE # 171 0
<U0660> <0>;<BAS>;<MIN>;IGNORE
<U06F0> <0>;<PCL>;<MIN>;IGNORE
<U0966> <0>;"<BAS><NUM>";"<MIN><MIN>";IGNORE

因此，'0' ( \u0030) 和 '٠' ( \u0660) 都扩展为完全相同的序列 ( <0>;<BAS>;<MIN>;IGNORE)，这意味着strcoll将以相同方式对待它们。（这也解释了为什么其他字符如\u06f0和\u0966不受影响，因为它们的扩展是不同的。）

看着ISO 14651 的 glibc 2.28 源，现在找到以下定义：

<U0030> <S0030>;<BASE>;<MIN>;<U0030> % DIGIT ZERO
<U0660> <S0030>;<BASE>;<MIN>;<U0660> % ARABIC-INDIC DIGIT ZERO
<U06F0> <S0030>;<BASE>;<MIN>;<U06F0> % EXTENDED ARABIC-INDIC DIGIT ZERO
<U07C0> <S0030>;<BASE>;<MIN>;<U07C0> % NKO DIGIT ZERO
<U0966> <S0030>;<BASE>;<MIN>;<U0966> % DEVANAGARI DIGIT ZERO

第四个字段现在始终填充代码点本身，这意味着即使前几个字段匹配，它们也将具有定义的排序顺序。虽然<U0660>没有引入更改这个特定的提交，它的描述解释了这个想法：

[...] 将字符的代码点放入第四级而不是“忽略”。如果没有这种更改，所有这些字符将比较相等，这将使 wcscoll 测试用例失败。即使对于这样的字符，最好也有一个明确定义的排序顺序，因此最好使用代码点作为平局。

localedata/locales/iso14651_t1_common：对于在所有 4 个级别上都有 IGNORE 的所有条目，使用第四个排序规则级别中字符的代码点，而不是 IGNORE。

希望这能解释 glibc <2.28 中 localedata 的错误以及 glibc 2.28 中的修复。

关于 bash，如果你看一下源代码，您将看到它处理0方括号表达式 ( ) 中的单个字符 ( ) ，就像处理以该字符作为开始和结束 ( )[0]的范围一样：[0-0]

cstart = cend = FOLD (cstart);

然后将当前字符与该范围进行比较使用 RANGECMP:

if (RANGECMP (test, cstart, forcecoll) >= 0 && RANGECMP (test, cend, forcecoll) <= 0)
  goto matched;

然后是 RANGECMP（定义为rangecmp_wc多字节模式）使用 wcscoll(3)（这是 strcoll 的多字节版本）：

return (wcscoll (s1, s2));

事实上，bash 对单个字符使用范围比较（作为一种快捷方式，共享一些处理范围的代码），因此它接受所有排序相同的字符以及原始字符。

其他 shell 可能没有这个问题，因为如果不涉及范围，它们会进行直接比较。

这个问题开始出现在 bash 3.0 上的原因是 bash 3.0 引入了对多字节 (Unicode) 的支持，最终重构了所有这些代码，并可能使用了与该问题相关的区域设置感知比较。

更新：这个问题是报告为错误到 bash 项目@艾萨克。

解决方法：如果升级到使用 glibc 2.28 的发行版不可行，则可能的解决方法是使用LC_COLLATE=C.utf8或POSIX.utf8定义一个“简单”排序顺序，其中没有代码点会进行相同的排序。考虑到问题在于排序规则，LC_COLLATE仅设置就足够了。在 Ubuntu 17.10 和 18.04 上测试此解决方法表明它足以解决此问题。

Answer 1