grep regex .* 不匹配所有内容

Question

这是一个典型的字符编码问题。.表示任何字符。但哪个字节序列是合法字符则取决于编码。在不了解编码的情况下处理文本肯定会失败。您的 grep 命令可能期望 UTF-8 编码的字符串。UTF-8 是一种多字节编码，这意味着某些字符由多个字节表示。但是，并非所有字节序列都是有效的。例如，请参阅维基百科有关 UTF-8 的文章。

当 grep 遇到不是预期编码中的有效字符的字节序列时，它无法将其识别为字符，该行不匹配，而是输出。由于您的终端也无法识别该字符，因此您会得到一个�。

您的情况有一个解决方法。告诉 grep 不要担心编码，并将一个字节视为一个字符。

env LANG=C grep ....

或者可能

env LANG=C LC_ALL=C grep ....

您可以轻松测试：

创建2个文件，一个为utf-8编码，一个为utf-16-be：

$ echo éléphant | tee file.std | iconv -f utf8 -t utf16be >file.utf16be

检查文件内容：

$ cat file*
éléphant
�l�phant

尝试 grep。utf16be 字符串无法识别，没有输出：

$ grep '^.*$' file*
file.std:éléphant

根本不要使用编码。一个字节是一个字符。所有字符串都匹配� 只是意味着终端无法将 utf16be 序列识别为有效的 utf-8 字符。请注意使用来-a告诉 grep 将二进制视为一些文本。

$ env LANG=C grep -a '^.*$' file*
file.std:éléphant
file.utf16be:�l�phant

或者，如果您知道编码，则可以iconv先转换文件，然后使用 grep。以下方法之一应该有效。

iconv -f utf16   -t utf8 < file | grep ...
iconv -f utf16le -t utf8 < file | grep ...
iconv -f utf16be -t utf8 < file | grep ...

Answer 1