是否有一个程序可以连接不可查找的流(预先未知大小)并可以再次将它们分开?

是否有一个程序可以连接不可查找的流(预先未知大小)并可以再次将它们分开?

我正在尝试将多个输入文件/流连接到一个流中(使用虚构的命令stream-cat),将该流通过管道传输到ssh远程主机并在远程主机上将其分离回单独的文件/流(stream-sep),如本例所示,用于演示仅目的:

stream-cat <( zfs send tank/vm@snapshot ) somefile.txt | ssh user@host "stream-sep >( zfs receive tank/vm@snapshot ) somefile.txt"

示例说明:zfs send输出一大串数据,其大小事先未知(这就是tar无法处理的原因)。该数据流与常规文件的内容连接在一起somefile.txt。产生的流通过管道输送到ssh,并在那里再次分离。第一个流通过管道传输到zfs receive,而第二个流则写入常规文件。

这样的程序应该很容易实现,通过以块的形式读取不可查找的流,并始终写入块大小,然后写入数据,直到到达流的末尾。开销将是最小的。

这样的程序已经存在吗?

答案1

你所描述的是复用;需要一个的东西协议(即关于如何处理数据的正式规范)。

有很多方法可以实现这一点。例如,您会注意到您的计算机可以通过 HTTP 完美地同时下载多个文件——甚至可以从同一服务器下载多个文件。该功能首先是由 TCP 带来的,TCP 作为传输协议,允许发送不同的流并在接收端“分解”。

因此,TCP 已经提供了该功能,您只需启动两个并发 SSH 连接并使用它即可!

zfs send | zstd -10 | ssh user@host 'zstd -d | zfs receive tank/vm@snapshot' &
# ^         ^    ^     ^             ^     ^   ^                             ^
# |         |    |     |             |     |   |                             |
# |         |    |     |             |     |   |     Tell your own shell to run
# |         |    |     |             |     |   |     this in the background and
# |         |    |     |             |     |   |     not block
# |         |    |     |             |     |   |                         
# |         |    |     |             |     |   |                            
# |         |    |     |             |     |   \---- Program to receive in the end
# |         |    |     |             |     |
# |         |    |     |             \-----+-------- use zstd to decompress
# |         |    |     |                             received data
# |         |    |     |            
# |         |    |     |
# |         |    |     \---------------------------- our first ssh invocaton
# |         |    |
# |         \----+---------------------------------- use zstd to compress at medium
# |                                                  high compression level (10)
# |
# \------------------------------------------------- the first program whose output
#                                                    we send

cat somefile.txt | ssh user@host 'cat > somefile.txt'
#                                                    Second SSH connection

当然,cat somefile.txt | ssh … > somefile.txt您可能会直接使用scp somefile.txt user@host:somefile.txt(它在底层使用 SSH,但不进行 shell 连接,而是使用 SSH 中的内置 SCP 层来复制文件),而不是稍微不优雅的 。

您可以通过将以下内容添加到文件中来更快地建立第二个连接~/.ssh/config

ControlMaster auto
ControlPath /tmp/.ssh-socket-%h_%p_%r

这将告诉 SSH 尝试并重新使用一个 SSH 会话来同时发送多个加密流(这也适用于scp和的任意组合)。ssh

答案2

stream-cat这些的粗略实现stream-sep可以轻松地编写为perl

stream-cat() {
  perl -ne 'BEGIN{$/ = \0x7fff}
            print pack("n", $c|length()<<1), $_;
            $c = !eof' -- "$@"
}
stream-sep() {
  perl -e 'while($/ = \2, $_ = <STDIN>) {
             $n = unpack "n";
             open OUT, shift@ARGV unless $n & 1;
             if ($n>>=1) {$/ = \$n; $_ = <STDIN>; print OUT}
           }' -- "$@"
}

或者与脚本相同#! /bin/sh -而不是sh函数。

(错误处理留给读者作为练习:-)。

stream-cat发送最大 32767 字节的记录,并以n网络编码(大端)短格式为前缀,其最低位指示它是新流的开始 (0) 还是延续,其余位是大小。

然后,例如:

$ cat a
test
$ stream-cat 'seq 10|' a | stream-sep '|wc -l' '>b'
10
$ cat b
test

所以在你的情况下:

stream-cat 'zfs send tank/vm@snapshot|' somefile.txt |
  ssh user@host 'stream-sep "|zfs receive tank/vm@snapshot" ">somefile.txt"'

在极少数情况下,不安全形式open(这里也使用<>和 一样使用-n)实际上很有用,它允许<file,>file以只读或只写模式打开文件,或者|cmd,cmd|通过管道传输到命令或从命令传输。

使用这些|cmd/比您的/cmd|更好,因为一次只有一个打开,因此您可以毫无问题地发送数千个单独的流。<(cmd)>(cmd)

相关内容