将相同的文件转换为硬链接

Question 1

以下命令用于md5为当前目录或以下目录中的所有文件生成 MD5 摘要：

find . -type f -exec md5 {} +

如果您没有 BSD实用程序，请替换md5为。md5sum --tagmd5

让我们构建一个简单的脚本来在目录上执行此操作：

#!/bin/bash

tmpdir=${TMPDIR:-/tmp}

if (( $# != 2 )); then
    echo 'Expected two directories as arguments' >&2
    exit 1
fi

i=0
for dir in "$@"; do
    (( ++i ))
    find "$dir" -type f -exec md5 {} + | sort -t '=' -k2 -o "$tmpdir/md5.$i"
done

这需要命令行上的两个目录并生成名为md5.1和的文件md5.2，每个目录对应一个文件，位于/tmp（或$TMPDIR指向的任何位置）。这些文件按照 MD5 摘要排序。

这些文件看起来像

MD5 (<path>) = <MD5 digest>

每个文件都有这样一行。

然后，在同一脚本中，比较两个文件之间的校验和：

join -t '=' -1 2 -2 2 "$tmpdir"/md5.[12]

这使用校验和作为连接字段在两个文件之间执行关系“连接”操作。两个字段中具有相同校验和的任何行都将被合并并输出。

如果两个文件中的任何校验和相同，则会输出：

<space><MD5 digest>=MD5 (<path1>) =MD5 (<path2>)

这可以直接传递给awk解析出两个路径：

awk -F '[()]' 'BEGIN { OFS="\t" } { print $2, $4 }'

这-F [()]只是一种表达方式，我们希望将每一行划分为基于(和的字段)。这样做会给我们留下字段 2 和 4 中的路径。

这将输出

<path1><tab><path2>

然后只需读取这些制表符分隔的路径对并发出正确的命令来创建链接即可：

while IFS=$'\t' read -r path1 path2; do
    echo ln -f "$path1" "$path2"
done

总之：

#!/bin/bash

tmpdir=${TMPDIR:-/tmp}

if (( $# != 2 )); then
    echo 'Expected two directories as arguments' >&2
    exit 1
fi

i=0
for dir in "$@"; do
    (( ++i ))
    find "$dir" -type f -exec md5 {} + | sort -t '=' -k2 -o "$tmpdir/md5.$i"
done

join -t '=' -1 2 -2 2 "$tmpdir"/md5.[12] |
awk -F '\\)|\\(' 'BEGIN { OFS="\t" } { print $2, $4 }' |
while IFS=$'\t' read -r path1 path2; do
    echo ln -f "$path1" "$path2"
done

rm -f "$tmpdir"/md5.[12]

在循环echo中while是为了安全。运行一次看看会发生什么，如果您确信它正在做正确的事情，请将其删除并再次运行它。

请记住，硬链接不能跨越分区。这意味着两个目录需要位于同一分区上。文件位于第二如果发现重复目录将被覆盖。将原件的备份保存在某处，直到您对结果感到满意为止！

请注意，如果任何文件的文件名中包含(或或制表符，则此解决方案将无法正常工作。)

Answer