比较 awk/bash 中的文件

Question

考虑到您必须使用 MD5，并且您的输入文件据说存在哈希冲突（二进制不同文件的 MD5 和相等），您可以采用的一个技巧是在对它们进行哈希处理时使用随机 SALT（短随机字符串），以使冲突的校验和再次变化。

例如

#!/bin/bash
SALT=$(dd if=/dev/urandom status=none bs=1c count=128)

FILES=("f1" "f2" "f3" "f4" "f5");
for file in "${FILES[@]}"
do
     echo $(echo $SALT | cat - "$file" | md5sum --binary | cut -d' ' -f1) $file
done

这将为每个文件计算 MD5 哈希值文件，添加随机生成的128字节盐混合，产生如下输出：

741eefc6c14d80ee38164a0961cfd200 f1
741eefc6c14d80ee38164a0961cfd200 f2
741eefc6c14d80ee38164a0961cfd200 f3
68441eb38393a75dee94ae089d528633 f4
68441eb38393a75dee94ae089d528633 f5

如果您再次运行此命令，您将获得不同的校验和（如盐会有所不同），但它们仍然会匹配重复文件：

bc2fdca1b765989b62e507711749c5b4 f1
bc2fdca1b765989b62e507711749c5b4 f2
bc2fdca1b765989b62e507711749c5b4 f3
a31019a6ace1f51b18920bb33d781c97 f4
a31019a6ace1f51b18920bb33d781c97 f5

现在您可以处理这个“MD5SUM 文件”列表，以获取重复项列表。

您还必须调整它以处理您的格式的输入数据 - 多个 \0\0 分隔的组，\0 分隔的文件名。（不会让你的作业失去所有乐趣）。

Answer 1