尝试查找仅包含 NUL 的文件，但得到一些其他文件

Question 1

简而言之，这里发生的事情是grep试图将您的文件解释为 Unicode 数据。序列 0xFF、0xFE 是UTF-16 的字节顺序标记。

（在我的测试中，即使涉及两个 0xFF 或两个 0xFE 等的其他序列仍然与'[^\x00]'正则表达式不匹配，因为即使尝试执行 UTF-8，这些也会被视为非字符。）

使用不使用 Unicode 作为字符类型的语言环境应该可以解决这个问题，你可以通过设置LC_CTYPE 环境变量. 使用C语言环境强制使用 ASCII 编码（因此不启用 Unicode）：

LC_CTYPE=C grep -RLP '[^\x00]' .

更新：正如@steeldriver 指出的那样，grep 仍然逐行执行，因此包含 NUL 字节和换行符的文件仍然会匹配。

@DavidFoerster 使用 grep 的解决方案-z很好地解决了这个问题，使用 NUL 字节作为分隔符就可以了。

另外，我编写了一个简短的 Python 3 脚本（allzeroes.py）来检查文件的内容是否全为零：

#!/usr/bin/python3
import sys
assert len(sys.argv) == 2
with open(sys.argv[1], 'rb') as f:
    for block in iter(lambda: f.read(4096), b''):
        if any(block):
            sys.exit(1)

您可以使用它来find递归地查找所有匹配项：

$ find . -type f -exec allzeroes.py {} \; -print

我希望这能有所帮助。

Answer

简而言之，这里发生的事情是grep试图将您的文件解释为 Unicode 数据。序列 0xFF、0xFE 是UTF-16 的字节顺序标记。

（在我的测试中，即使涉及两个 0xFF 或两个 0xFE 等的其他序列仍然与'[^\x00]'正则表达式不匹配，因为即使尝试执行 UTF-8，这些也会被视为非字符。）

使用不使用 Unicode 作为字符类型的语言环境应该可以解决这个问题，你可以通过设置LC_CTYPE 环境变量. 使用C语言环境强制使用 ASCII 编码（因此不启用 Unicode）：

LC_CTYPE=C grep -RLP '[^\x00]' .

更新：正如@steeldriver 指出的那样，grep 仍然逐行执行，因此包含 NUL 字节和换行符的文件仍然会匹配。

@DavidFoerster 使用 grep 的解决方案-z很好地解决了这个问题，使用 NUL 字节作为分隔符就可以了。

另外，我编写了一个简短的 Python 3 脚本（allzeroes.py）来检查文件的内容是否全为零：

#!/usr/bin/python3
import sys
assert len(sys.argv) == 2
with open(sys.argv[1], 'rb') as f:
    for block in iter(lambda: f.read(4096), b''):
        if any(block):
            sys.exit(1)

您可以使用它来find递归地查找所有匹配项：

$ find . -type f -exec allzeroes.py {} \; -print

我希望这能有所帮助。

Question 2

您可以滥用的grep替代空终止行模式，从而搜索仅包含空行的文件：

grep -L -z -e . ...

替换...为您要扫描的文件集（此处-R .：）。

解释

-z, --null-data– 将输入视为一组行，每行以零字节（ASCII NUL 字符）结束，而不是换行符^。1
-e .– 用作.搜索模式，即匹配任何字符。
-L, --files-without-match– 抑制正常输出；而是打印每个通常不会打印输出的输入文件的名称。扫描将在第一次匹配时停止^。1

测试用例

设置：

: > empty
truncate -s 100 zero
printf '%s\0' foo bar > foobar

运行测试：

$ grep -L -z -e . empty zero foobar
empty
zero

¹从grep(1)手册页。

Answer