读取大型 bz2 压缩文件的简便方法

读取大型 bz2 压缩文件的简便方法
bzcat *.log | sed # etc

可以工作,但由于文件有几GB大,所以需要一些时间才能完成。

有没有办法可以更快地完成它?

我试过

echo *.log | xargs -P 4 bzcat | sed # etc

但线条却混杂了。

答案1

为了充分利用多个 CPU 核心(除了运行多个bzip2实例并遇到您注意到的问题之外),您可以使用 bzip2 压缩的多线程实现。似乎有很多这样的实现,不幸的是默认实现bzip2(以及bzcat随附的)不是其中之一。

以下是其中一些的链接,有些甚至可能随你的发行版一起提供

对于 ,lbzip2也有一个lbzcat,但对于pbzip2mpibzip以及任何其他尝试与bzip2以下命令行兼容的实现都应该可以工作:

pbzip2 -d -c *.log | sed # etc

相关内容