使用带有字符范围的 tr 命令

Question

您使用的是 UTF-8。耶！ASCII 以及 UTF-8（因为 UTF 人员试图使其成为 ASCII 的超集）的字母按字母顺序排列，没有间隙，因此a-z包含所有常规小写字符，而不包含其他任何内容，依此类推。

然而，在其他编码上，情况不一定如此。经典的例子是EBCDIC：

字母之间的间隙使得在 ASCII 中有效的简单代码在 EBCDIC 中失效。例如，在 ASCII 字母表中for (c='A';c<='Z';++c)会设置c为 26 个字母，但在 EBCDIC 中会设置为 40 个字符（包括许多未分配的字符）。解决这个问题需要使用函数调用使代码复杂化，这遭到了程序员的强烈抵制。

我想没有人再使用这种奇怪的东西了，但是谁知道呢？

据我所知，GNU tr 不支持 Unicode，但对于支持的程序，[[:upper:]]也会匹配被视为大写字母的 Unicode 字符，例如全角“Ａ”或带重音符号的 A：À。

$ printf "%s\n" A a Ａ À | grep '[[:upper:]]'
A
Ａ
À
$ printf "%s\n" A a Ａ À | grep '[A-Z]'   # I'm also using Unicode, so grep tries to be friendly
A
À
$ printf "%s\n" A a Ａ À | LC_ALL=C grep '[A-Z]'
A

Answer 1

您使用的是 UTF-8。耶！ASCII 以及 UTF-8（因为 UTF 人员试图使其成为 ASCII 的超集）的字母按字母顺序排列，没有间隙，因此a-z包含所有常规小写字符，而不包含其他任何内容，依此类推。

然而，在其他编码上，情况不一定如此。经典的例子是EBCDIC：

字母之间的间隙使得在 ASCII 中有效的简单代码在 EBCDIC 中失效。例如，在 ASCII 字母表中for (c='A';c<='Z';++c)会设置c为 26 个字母，但在 EBCDIC 中会设置为 40 个字符（包括许多未分配的字符）。解决这个问题需要使用函数调用使代码复杂化，这遭到了程序员的强烈抵制。

我想没有人再使用这种奇怪的东西了，但是谁知道呢？

据我所知，GNU tr 不支持 Unicode，但对于支持的程序，[[:upper:]]也会匹配被视为大写字母的 Unicode 字符，例如全角“Ａ”或带重音符号的 A：À。

$ printf "%s\n" A a Ａ À | grep '[[:upper:]]'
A
Ａ
À
$ printf "%s\n" A a Ａ À | grep '[A-Z]'   # I'm also using Unicode, so grep tries to be friendly
A
À
$ printf "%s\n" A a Ａ À | LC_ALL=C grep '[A-Z]'
A

使用带有字符范围的 tr 命令

答案1

相关内容