如何 grep 查找一系列 unicode 字符？

Question 1

在 gnu-grep 和类似中，您可以使用 PCRE 选项-P并使用 \x{HHHH}语法

$ grep -o -P '[\x{0410}-\x{042F}]+' # same as: grep -o -P '[А-Я]+'
абвгдеёжзийклмнопрстуфхцчшщъыьэюяАБВГДЕ

=> АБВГДЕ

Answer

在 gnu-grep 和类似中，您可以使用 PCRE 选项-P并使用 \x{HHHH}语法

$ grep -o -P '[\x{0410}-\x{042F}]+' # same as: grep -o -P '[А-Я]+'
абвгдеёжзийклмнопрстуфхцчшщъыьэюяАБВГДЕ

=> АБВГДЕ

Question 2

在 GNU 系统上设置LC_COLLATE为C至少应保证顺序基于字符映射为多字节的语言环境中的 Unicode 代码点（例如 UTF-8、GB18030），以及其他方式的字节值（在使用 ASCII 或 ISO 的语言环境中） -8859-1 还应该匹配 unicode 代码点顺序）。

所以：

LC_COLLATE=C grep $'[\u1111-\uaaaa]'

应该找到至少包含一个字符的行，其 unicode 代码点介于 U+1111 和 U+AAAA 之间（根据设置指示的区域设置的字符映射进行编码LC_CTYPE）。假设$LC_ALL没有另外设置（因为它优先于$LC_COLLATE）。

我建议避免跨越无效的 U+D800 - U+DFFF 范围。该范围内的代码点保留用于 UTF-16 编码，不适用于有效字符，并且已被某些工具用于对无效字符进行编码。使用 U+0001 和 U+D7FF 以及 U+E000 和 U+10FFFF 内的字符。

您还需要确保范围的边界与您所在区域中的有效字符相对应。的行为$'\uxxxx'（其中 U+xxxx 不是区域设置字符集中的字符）在支持该$'\u...'运算符的 shell 之间有所不同。在某些 shell 中（包括来自 zsh 的 ksh93 $'...'）$'\u...'，$'\u...'仅适用于使用 UTF-8 作为字符映射的语言环境（请参阅的输出locale charmap）。

Answer

在 GNU 系统上设置LC_COLLATE为C至少应保证顺序基于字符映射为多字节的语言环境中的 Unicode 代码点（例如 UTF-8、GB18030），以及其他方式的字节值（在使用 ASCII 或 ISO 的语言环境中） -8859-1 还应该匹配 unicode 代码点顺序）。

所以：

LC_COLLATE=C grep $'[\u1111-\uaaaa]'

应该找到至少包含一个字符的行，其 unicode 代码点介于 U+1111 和 U+AAAA 之间（根据设置指示的区域设置的字符映射进行编码LC_CTYPE）。假设$LC_ALL没有另外设置（因为它优先于$LC_COLLATE）。

我建议避免跨越无效的 U+D800 - U+DFFF 范围。该范围内的代码点保留用于 UTF-16 编码，不适用于有效字符，并且已被某些工具用于对无效字符进行编码。使用 U+0001 和 U+D7FF 以及 U+E000 和 U+10FFFF 内的字符。

您还需要确保范围的边界与您所在区域中的有效字符相对应。的行为$'\uxxxx'（其中 U+xxxx 不是区域设置字符集中的字符）在支持该$'\u...'运算符的 shell 之间有所不同。在某些 shell 中（包括来自 zsh 的 ksh93 $'...'）$'\u...'，$'\u...'仅适用于使用 UTF-8 作为字符映射的语言环境（请参阅的输出locale charmap）。

Question 3

我采访了一些 Perl 专家。并获得了与 grep 等价的 perl oneliner 来查找一系列 unicode 字符。

$ echo £
£

所以就有了序数的概念，它是字符的数字表示。（我想无论某物是编码还是代码点。序数这个词对于描述 \x 之后的内容很有用，根据选项，可以是编码，因此存储字节，或者可以是 unicode 代码点，字节但未编码用于存储/写入内存）

它以字节/八位位组为单位。可以用各种基地来表示。

%v是 printf 的格式说明符，

$ perl -e 'printf "%vx\n",A'
41

$ perl -e 'printf "%vx\n",4'
34

%vd 将为 52（字符“4”的十进制数字表示。%vx 是十六进制表示

£ 的 UTF-8 编码为 c2a3 https://www.utf8-chartable.de/

$ echo £ | xxd -p
c2a30a

当使用超过两位数的 \x 时，必须使用花括号。 \X{..}

$ echo £ | perl -CIO -ne 'print if /[\x0A]/'
£

$ echo £ | perl -CIO -ne 'print if /[\x{0080}-\x{FFFF}]/'
£

-CIO 将序数从 UTF-8 表示形式 (c2a3) 转换为 unicode 代码点表示形式 (a3)。因此，当将 -CIO 与 \x 一起使用时，\x 后面的内容应该是 unicode 代码点表示

下面的内容可以将其与 \u0080 及以上的任何内容相匹配。不停止于\uFFFF。只是一个正则表达式的东西。

$ echo £ | perl -CIO -ne 'print if /[^\x00-\x7f]/'
£

如果删除 -CIO 那么您将匹配 UTF-8 字节，而不是 unicode 代码点字节。因为如果没有 -CI，它就不会将 UTF-8 编码字节转换/解释/解码为 unicode 代码点。

$ echo £ | perl -ne 'print if /\xc2/'
£

$ echo £ | perl -ne 'print if /\xa3/'
£

所以总结一下

$ echo £ | perl -CIO -ne 'print if /[\x{0080}-\x{FFFF}]/'
£

$ echo £ | perl -CIO -ne 'print if /[^\x00-\x7f]/'
£

$ echo £ | perl -CIO -ne 'print if /[^\x{00}-\{x7f}]/'
£

$ echo £ | perl -CIO -ne 'print if /[^\x{0000}-\{x007f}]/'
£

记录perl -CIO于 perldoc perlrun

 -C [*number/list*]
         The -C flag controls some of the Perl Unicode features.

...
             I     1   STDIN is assumed to be in UTF-8
             O     2   STDOUT will be in UTF-8

和 perldoc perlunicode 和 perldoc perlre 提到 \x{...}

Answer