如何在相对有限的服务器上对1.3亿个文件进行重复数据删除并按大小排序？

Question

因此，解决您遇到的 bug 的一种方法是将大小和 md5 拆分为多个子字段。对于大小，您需要先将其填充为固定位数。

假设您要创建一个如下文件名：

#size / md5              / name
12345 / aabbccddeeffgghh / foo__DIVIDER__bar__DIVIDER__baz.jpg

改成：

# size        /md5                    /name
00/00/01/23/45/aa/bb/cc/dd/ee/ff/gg/hh/foo__DIVIDER__bar__DIVIDER__baz.jpg

...并且您已经限制了树中任何给定点的扇出级别，从而避免了所讨论的错误。

要真正生成这种格式的文件名树可能看起来像这样：

inDir=/path/to/tree/with/input/files
while IFS= read -r -d '' name; do
  sp=$(stat --format=%010s -- "$name") # sp as short for "size padded"

  size_dir=${sp:0:2}/${sp:2:2}/${sp:4:2}/${sp:6:2}/${sp:8:2}

  { read -r md5 _ < <(md5sum "$name") && [[ $md5 ]]; } || continue
  md5_left=$md5
  while [[ $md5_left ]]; do
    md5_dir+="/${md5_left:0:2}"
    md5_left=${md5_left:2}
  done

  sep=/
  final_name="${size_dir}${md5_dir}/${name//$sep/__DIVIDER__}"

  final_dir="${final_name%/*}"
  if [[ -d "$final_dir" ]]; then
    # Hardlink new file to existing ones (deduplication)
    # Be sure to use an archiver that understands hardlinks (not zip)!
    existing_files=( "$final_dir"/* )
    if [[ -e "${existing_files[0]}" || -L "${existing_files[0]}" ]]; then
      ln -- "${existing_files[0]}" "$final_name"
      ln -f -- "$final_name" "$file"  # and make our input file a hardlink as well
      continue
    fi
  fi

  # if we get here, the continue was not invoked
  mkdir -p -- "${final_name%/*}"
  ln -- "$name" "$final_name"
done < <(find "$inDir" -printf '%P\0')

当然，如果您的文件大于 9,999,999,999 字节，您将需要添加更多填充（可能使用%012s而不是%010s，并适当更改的计算size_dir）。

Answer 1