太慢的 gzip -d 命令的替代方案

Question 1

有很多磁盘 I/O 可以用管道代替。它func_create_dat_file获取 50 个压缩文件的列表，读取每个文件并写入未压缩的数据。然后，它读取 50 个未压缩的数据文件中的每一个，并在前面加上文件名再次将其写出。所有这些工作都是按顺序完成的，因此无法充分利用多个 cpu。

我建议你尝试一下

func_create_dat_file()
{
    cd raw_directory
    while IFS="" read -r f
    do
        zcat -- "$f" | sed "s/^/${f%.gz}|/"
    done < "${raw_file_list}" >> "${data_file}"
}

这里，压缩数据从磁盘读取一次。未压缩的数据写入管道一次，从管道读取一次，然后写入磁盘一次。数据转换与读取并行进行，因此可以使用 2 个 cpu。

[编辑] 要求解释该部分的评论sed "s/^/${f%.gz}|/"。这是将文件名作为新字段放在每行开头的代码。$f是文件名。从字符串末尾${f%.gz}删除。在这种情况下，.gz没有什么特别的|，${f%.gz}|文件名也是如此，删除尾部.gz后跟|. Insed s/old/new/是替换（替换）命令，它需要regular expression代表该old部分。^因为正则表达式匹配行的开头，所以将其放在一起，表示将行的开头更改为不带尾随.gz和|.添加它|是为了匹配OP的程序而不是OP的描述。如果它确实是 CSV（逗号分隔变量）文件，那么这应该是逗号而不是竖线。

Answer

有很多磁盘 I/O 可以用管道代替。它func_create_dat_file获取 50 个压缩文件的列表，读取每个文件并写入未压缩的数据。然后，它读取 50 个未压缩的数据文件中的每一个，并在前面加上文件名再次将其写出。所有这些工作都是按顺序完成的，因此无法充分利用多个 cpu。

我建议你尝试一下

func_create_dat_file()
{
    cd raw_directory
    while IFS="" read -r f
    do
        zcat -- "$f" | sed "s/^/${f%.gz}|/"
    done < "${raw_file_list}" >> "${data_file}"
}

这里，压缩数据从磁盘读取一次。未压缩的数据写入管道一次，从管道读取一次，然后写入磁盘一次。数据转换与读取并行进行，因此可以使用 2 个 cpu。

[编辑] 要求解释该部分的评论sed "s/^/${f%.gz}|/"。这是将文件名作为新字段放在每行开头的代码。$f是文件名。从字符串末尾${f%.gz}删除。在这种情况下，.gz没有什么特别的|，${f%.gz}|文件名也是如此，删除尾部.gz后跟|. Insed s/old/new/是替换（替换）命令，它需要regular expression代表该old部分。^因为正则表达式匹配行的开头，所以将其放在一起，表示将行的开头更改为不带尾随.gz和|.添加它|是为了匹配OP的程序而不是OP的描述。如果它确实是 CSV（逗号分隔变量）文件，那么这应该是逗号而不是竖线。

Question 2

那么这个hive和hadoop呢？当您提供gzip -d“原始文件列表”时，可能会不必要地绕过该分布式文件系统。

该生产服务器上的某些内容肯定无法正常工作。一小时解压20GB（我省略了细节）。我在 0.8 秒内解压了 100 MB、分成 11300 个文件的文件。这大约快了 20 倍。使用 naiv 巨大文件列表 gzip 调用和 ram 磁盘。我还按照建议安装并尝试了并行。速度快了 10%：0.7 秒。所以这不是问题。

（我只有 8 GB 内存的 Mini-PC i5）

我有一个正在运行的瓦特表。在 14 秒的慢速循环中，使用了 6 W。
在我的可疑循环中，它的功率约为 17 W，持续 6 秒。（提示，也是 X 服务器，为 3.5 W，susp-to-ram 为 1.1，关闭为...0.7 瓦）

在我的测试中，14 s 循环与 0.8 s 巨大参数列表的比率与您的总体 25 GB/h 与我的 100 MB/0.8 s 的比率相同：二十倍...就好像您使用的是慢速 for 循环一样。我认为 hadoop 和 hive 的巨大参数列表正在干扰 gzip 和 bash。

Answer