Bash 脚本将大约 1GB 的文件打包到 tar 存档中

Question 1

在每个目录循环中嵌套第二个循环以在将每个文件附加到 tar 文件之前跟踪每个文件的大小怎么样？这是我的意思的示意性伪代码：

max_size=$((1024*1024*1024))
total_size=0
for dir in $dirlist ; do
  for foo in $dir/*; do
    this_size="$(stat -c"%s" $foo)"
    if [ $(($total_size + $this_size)) -le $max_size ] ; then
      tar --append ... $foo
      total_size="$(($total_size + $this_size))"
    else
      # start new tar file here
      tar -c ... $foo
      total_size="$this_size"
    fi
  done
done

Answer

在每个目录循环中嵌套第二个循环以在将每个文件附加到 tar 文件之前跟踪每个文件的大小怎么样？这是我的意思的示意性伪代码：

max_size=$((1024*1024*1024))
total_size=0
for dir in $dirlist ; do
  for foo in $dir/*; do
    this_size="$(stat -c"%s" $foo)"
    if [ $(($total_size + $this_size)) -le $max_size ] ; then
      tar --append ... $foo
      total_size="$(($total_size + $this_size))"
    else
      # start new tar file here
      tar -c ... $foo
      total_size="$this_size"
    fi
  done
done

Question 2

据我所知，python 不理解 tar 格式，因此您可能喜欢使用可能与 tar 存档标准不 100% 兼容的 tar 存档模块。这是一个需要考虑的重要事项，有许多半生不熟的 tar 实现通常仅支持官方功能集的子集。

我建议在不进入模式的情况下使用该star选项。这可以防止在中间分割文件，但无法归档大于指定磁带大小的文件。-tsizestarmulti volumestar

如果默认 shell“sh”在支持“$((expr))”方面符合 POSIX，否则将“sh -c”替换为“ksh -c”或类似的。

...怎么样：

cd /tmp
star -C path/to/archivedir -c tsize=1G \
new-volume-script='cd /tmp;sh -c "mv vol-last.tar vol\$((\$1-1)).tar" script' \
f=vol-last.tar .

这会将创建的 TAR 存档保留在 /tmp 中。您需要手动将 vol-last.tar 重命名为最终预期的卷号。我可能会考虑增强 star 以将新卷脚本运行到每个存档的末尾，包括最后一个。

Answer