从概念上讲,流是“字符”或“原子”的序列,即二进制流是0和1的序列。但在Linux标准流中,如果我编写一个要求“读取”的bash脚本,那么我认为它将单行(以“ENTER”结尾)视为“字符”,但我不确定。这对我来说意味着单个“原子”是一个字符串,并且原子由 ENTER 分隔。另外,我假设对于其他程序,它们不采用字符串作为输入,而是采用其他数据类型。
我走在正确的轨道上吗?标准流中的原子/字符是什么以及程序如何知道如何将文件分割成原子?
答案1
从根本上讲,管道/文件/套接字或您连接的 stdin/stdout/stderr 的任何内容都是流(*)字节。相关的系统调用是read()
和write()
,它们的 POSIX 描述如下:
write() 函数应尝试将 buf 指向的缓冲区中的 nbyte 字节写入文件 [...]
和
read() 函数应尝试从与打开的文件描述符、fildes、[...] 关联的文件中读取 nbyte 字节。
还,POSIX 将字节定义为完全等于八位字节,即八位为一个单位。
因此,八位字节是一次可以读取或写入的最小单位,如果您愿意的话,也可以称为“原子”。
但不同的公用事业公司做什么是另一回事。read
默认情况下读取一行,但库函数也是如此fgets()
。根据 shell 的不同,您可能可以要求read
只读取固定数量的字节,例如在 Bash 中:
$ echo foo | ( read -n 1 a; echo "first: $a"; read -n 1 b; echo "second: $b" )
first: f
second: o
但请注意,Bashread
遵循区域设置并将计数视为人物,可以是多字节。但这并不妨碍我们阅读个人字节反而:
$ echo äöä | (read -n 1 a; echo "first: $a"; LC_ALL=C read -n 1 b; echo "second: $b" )
first: ä
second: �
(*还有数据报套接字,仍然是字节粒度的,但也保留了之间的边界消息(零个或多个字节)在套接字中发送。您可能可以将正确设置的数据报套接字插入到 stdin/stdout/stderr,但几乎没有人这样做过。)