南瓜文件系统

Question 1

...必须解压缩所有内容才能提取任何文件...对吗？

如果你避免焦油就不会；搜索文件名并从存档中提取单个文件很容易（对于 .zip、.7z 来说速度很快）。例子;

> du -h a.*                     
223M    a                                        
115M    a.tar.gz                
75M     a.7z            

> 7z l a.7z | wc -l                     
2253  

> ( time 7z l a.7z >/dev/null ) 2>&1 | grep user                                            
user    0m0.014s

> ( time tar -ztf a.tar.gz >/dev/null ) 2>&1 | grep user
user    0m2.055s

...压缩每个文件的效果不如将所有文件聚合到一个 tar 文件中然后压缩它...对吗？

正确的。

我的第一条评论是，7z 是多线程和索引的，而 tar.xz 不是，因此存在巨大的性能差异。

但实际上我只会使用文件系统或设备映射器进行压缩；

vdo create --name=vdo_volume --device=/dev/vda

压缩的文件系统； https://en.m.wikipedia.org/wiki/Category:压缩文件系统例如

mount -t btrfs  -o compress=lzo /dev/sdb /media/my_compressed_files

请注意，这两个操作都可以在环回设备上完成，因此它们可以像文件中的整个文件系统一样运行。

还有一些归档熔丝驱动程序，例如fuse-7z-ng，它们的数据检索速度很快，但写入性能却很糟糕。

fuse-7z-ng files.7z /media/my_compressed_files

Answer

...必须解压缩所有内容才能提取任何文件...对吗？

如果你避免焦油就不会；搜索文件名并从存档中提取单个文件很容易（对于 .zip、.7z 来说速度很快）。例子;

> du -h a.*                     
223M    a                                        
115M    a.tar.gz                
75M     a.7z            

> 7z l a.7z | wc -l                     
2253  

> ( time 7z l a.7z >/dev/null ) 2>&1 | grep user                                            
user    0m0.014s

> ( time tar -ztf a.tar.gz >/dev/null ) 2>&1 | grep user
user    0m2.055s

...压缩每个文件的效果不如将所有文件聚合到一个 tar 文件中然后压缩它...对吗？

正确的。

我的第一条评论是，7z 是多线程和索引的，而 tar.xz 不是，因此存在巨大的性能差异。

但实际上我只会使用文件系统或设备映射器进行压缩；

vdo create --name=vdo_volume --device=/dev/vda

压缩的文件系统； https://en.m.wikipedia.org/wiki/Category:压缩文件系统例如

mount -t btrfs  -o compress=lzo /dev/sdb /media/my_compressed_files

请注意，这两个操作都可以在环回设备上完成，因此它们可以像文件中的整个文件系统一样运行。

还有一些归档熔丝驱动程序，例如fuse-7z-ng，它们的数据检索速度很快，但写入性能却很糟糕。

fuse-7z-ng files.7z /media/my_compressed_files

Question 2

使用tar的-tvf选项，您可以列出使用 tar 创建的任何存档的内容，甚至可以与 gzip、bzip2 或 xz 等其他库结合使用。

tar -tf file.tar
tar -ztf file.tar.gz
tar -jtf file.tar.bz2
tar -Jtf file.tar.xz

列出内容可以让您专门识别要从存档中提取的文件，然后您可以使用特定路径来提取文件。

假设您的路径是home/user/old/photos/beach2012/bigbeachball.jpg.

tar -xf file.tar home/user/old/photos/beach2012/bigbeachball.jpg
tar -zxf file.tar.gz home/user/old/photos/beach2012/bigbeachball.jpg
tar -jxf file.tar.bz2 home/user/old/photos/beach2012/bigbeachball.jpg
tar -Jxf file.tar.xz home/user/old/photos/beach2012/bigbeachball.jpg

如果您的存档文件不会发生太大变化（即，您不会经常向其中添加或删除文件），则您始终可以将内容提取到文本文件中。将内容放在可以使用 grep 搜索的文本文件中可以使查找文件比每次要搜索时都必须处理存档更容易。

Answer

使用tar的-tvf选项，您可以列出使用 tar 创建的任何存档的内容，甚至可以与 gzip、bzip2 或 xz 等其他库结合使用。

tar -tf file.tar
tar -ztf file.tar.gz
tar -jtf file.tar.bz2
tar -Jtf file.tar.xz

列出内容可以让您专门识别要从存档中提取的文件，然后您可以使用特定路径来提取文件。

假设您的路径是home/user/old/photos/beach2012/bigbeachball.jpg.

tar -xf file.tar home/user/old/photos/beach2012/bigbeachball.jpg
tar -zxf file.tar.gz home/user/old/photos/beach2012/bigbeachball.jpg
tar -jxf file.tar.bz2 home/user/old/photos/beach2012/bigbeachball.jpg
tar -Jxf file.tar.xz home/user/old/photos/beach2012/bigbeachball.jpg

如果您的存档文件不会发生太大变化（即，您不会经常向其中添加或删除文件），则您始终可以将内容提取到文本文件中。将内容放在可以使用 grep 搜索的文本文件中可以使查找文件比每次要搜索时都必须处理存档更容易。

Question 3

我一直对此非常感兴趣，以下是我研究过的几个选项：

南瓜文件系统

壁球允许您归档和压缩数据，但稍后将其安装为文件系统，以便您可以像未压缩一样浏览它：

mksquashfs some/directory dir.squashfs
mkdir mnt
sudo mount -t squashfs dir.squashfs mnt

这只能以 root 身份运行，并且只能在 Linux 上运行。但挤压保险丝允许您在任何支持 FUSE 的系统上以非 root 身份执行此操作。

像素

有人已经提到过像素——但它不仅仅是并行化的 xz。它还添加了一个文件索引到压缩档案，这使得小型操作更加高效。例如：

# Listing files, and extracting a single file, using normal tar + xz
# So slow, not practical for interactive use.

$ time tar -tf 8gigs.tpxz > /dev/null
371.99s user 5.45s system 99% cpu 6:21.00 total
$ time tar -xf 8gigs.tpxz dir/somefile.txt
375.04s user 5.45s system 99% cpu 6:21.00 total

# Using pixz instead it's much faster!

$ time pixz -l < 8gigs.tpxz  > /dev/null
0.01s user 0.01s system 38% cpu 0.035 total
$ time pixz -x dir/somefile.txt < 8gigs.tpxz | tar x
0.33s user 0.02s system 97% cpu 0.359 total

免责声明

我写了pixz 和squashfuse——因为我遇到了像你这样的问题。

Answer

我一直对此非常感兴趣，以下是我研究过的几个选项：

南瓜文件系统

壁球允许您归档和压缩数据，但稍后将其安装为文件系统，以便您可以像未压缩一样浏览它：

mksquashfs some/directory dir.squashfs
mkdir mnt
sudo mount -t squashfs dir.squashfs mnt

这只能以 root 身份运行，并且只能在 Linux 上运行。但挤压保险丝允许您在任何支持 FUSE 的系统上以非 root 身份执行此操作。

像素

有人已经提到过像素——但它不仅仅是并行化的 xz。它还添加了一个文件索引到压缩档案，这使得小型操作更加高效。例如：

# Listing files, and extracting a single file, using normal tar + xz
# So slow, not practical for interactive use.

$ time tar -tf 8gigs.tpxz > /dev/null
371.99s user 5.45s system 99% cpu 6:21.00 total
$ time tar -xf 8gigs.tpxz dir/somefile.txt
375.04s user 5.45s system 99% cpu 6:21.00 total

# Using pixz instead it's much faster!

$ time pixz -l < 8gigs.tpxz  > /dev/null
0.01s user 0.01s system 38% cpu 0.035 total
$ time pixz -x dir/somefile.txt < 8gigs.tpxz | tar x
0.33s user 0.02s system 97% cpu 0.359 total

免责声明

我写了pixz 和squashfuse——因为我遇到了像你这样的问题。

南瓜文件系统

答案1

答案2

答案3

南瓜文件系统

像素

免责声明

相关内容