据我所知,每个操作系统都有不同的方式来标记行尾(EOL)字符。商业操作系统使用回车符进行 EOL(Windows 上回车和换行,Mac 上仅回车)。另一方面,Linux 仅使用换行来实现 EOL。
为什么 Linux 不在 EOL 中使用回车符(而仅使用换行符)?
答案1
Windows 使用它是CRLF因为它继承自 MS-DOS。
MS-DOS 使用是CRLF因为它受到已经使用CRLF.
CP/M 和八十年代及更早的许多操作系统都使用它,CRLF因为它是结束电传打字机上打印的一行的方式(返回到行的开头并跳到下一行,就像普通打字机一样)。这简化了文件的打印,因为需要较少的预处理或不需要预处理。还有一些机械要求阻止了单个角色的使用。有一段时间可能需要以允许托架返回和压板旋转。
Gnu/Linux 使用LF因为它是 Unix克隆。1
Unix 从一开始就使用单个字符 ,LF以节省空间并标准化为规范的行尾,使用两个字符效率低下且不明确。这一选择继承自 Multics,后者早在 1964 年就使用了它。内存、存储、CPU 功率和带宽都非常稀疏,因此每行节省一个字节是值得的。打印文件时,驱动程序会将换行符(换行符)转换为目标设备所需的控制字符。
LF之所以优先选择CR后者,是因为后者仍然有特定的用法。通过将打印的字符重新定位到同一行的开头,可以覆盖已经键入的字符。
苹果最初决定也使用单个字符,但由于某种原因选择了另一个字符:CR。当它切换到 BSD 界面时,它转移到了LF.
这些选择与操作系统是否商业无关。
1这就是你问题的答案。
答案2
维基百科关于“Newline”的文章将 NL 作为行终止符(或分隔符)的选择追溯到 1964 年的 Multics;不幸的是,这篇文章几乎没有引用来源,但没有理由怀疑这是正确的。与 CR-LF 相比,这种选择有两个明显的好处:节省空间和设备独立性。
主要替代方案 CR-LF 源于用于在电传打字机上物理移动纸架的控制代码,其中 CR 将使纸架返回到其原始位置,而 LF 将旋转纸辊以将打印位置向下移动一个线。这两个控制字符出现在 ITA2 代码中,该代码的历史可以追溯到 1924 年,并且显然仍在使用(参见维基百科);显然,ITA2 从 1901 年的 Baudot 代码的 Murray 变体中获取了它们。
对于年轻读者来说,值得注意的是,在大型机传统中,没有换行符;相反,文件是一系列记录,其长度可以是固定长度(通常为 80 个字符,基于打孔卡)或可变长度;可变长度记录通常在每个记录的开头存储字符计数。如果您有一个由一系列可变长度记录组成的大型机文件,每个记录都包含任意二进制内容,则将其无损转换为 UNIX 样式文件可能是一个棘手的转换。
当然,Linux 只是 Unix 的重新实现,而 Unix 的许多设计决策都来自 Multics,因此看起来关键决策是在 1964 年做出的。
答案3
其他答案将继承链追溯到 20 世纪 60 年代和电传打字机。但他们没有涵盖这一方面。
在电传打字机时代,有时需要做一些称为重打的事情。有时会使用重线来隐藏密码,因为删除密码是不可能的。其他时候,进行重划是为了获得字体中没有的符号。例如,字母 O 和斜线会生成一个新符号。
重划是通过输入不换行的回车来实现的,尽管有时使用退格键。出于这个原因,unix 人们决定不使用回车作为行分隔符,而是选择换行。这对于阅读使用 CRLF 约定生成的文本也很有效。 CR 被吞掉,LF 成为分隔符。
答案4
虽然您可以将历史问题转化为有关 C 语言的问题,但 Linux 和所有符合 POSIX 或 POSIX-ish 的系统的原因必须使用LF
(或至少无论 C'\n'
字符是什么)作为换行符是 C 和 POSIX 要求交叉的结果。虽然 C 允许“文本文件”和“二进制文件”有所不同(事实上,文本文件可以是基于记录的,由一系列行记录组成,此外还有一些不太奇特的东西,例如在DOS/Windows 上'\n'
进行相互转换),POSIX 要求文本和二进制模式的行为相同。这在很大程度上是像这样的命令行工具强大/有用的原因;如果它们仅使用二进制或仅使用文本,但不能同时使用两者,那么它们的作用就会小得多。CR
LF
cat