读取可能不以换行符结尾的面向行的文件

Question 1

你会这样做：

while IFS= read -r url || [ -n "$url" ]; do
  printf '%s\n' "$url"
done < url.list

（实际上，该循环在最后（非）行上添加了丢失的换行符）。

也可以看看：

Answer

你会这样做：

while IFS= read -r url || [ -n "$url" ]; do
  printf '%s\n' "$url"
done < url.list

（实际上，该循环在最后（非）行上添加了丢失的换行符）。

也可以看看：

Question 2

好吧，read如果它在换行符之前遇到文件结束符，则返回一个假值，但即使遇到这种情况，它仍然会分配它读取的值。因此，我们可以检查最终调用是否read返回空行以外的内容，并正常处理它。所以，只有read在返回 false后才退出循环和该行是空的：

#!/bin/sh
while IFS= read -r line || [ "$line" ]; do 
    echo "line: $line"
done

$ printf 'foo\nbar' | sh ./read.sh 
line: foo
line: bar
$ printf 'foo\nbar\n' | sh ./read.sh 
line: foo
line: bar

Answer

好吧，read如果它在换行符之前遇到文件结束符，则返回一个假值，但即使遇到这种情况，它仍然会分配它读取的值。因此，我们可以检查最终调用是否read返回空行以外的内容，并正常处理它。所以，只有read在返回 false后才退出循环和该行是空的：

#!/bin/sh
while IFS= read -r line || [ "$line" ]; do 
    echo "line: $line"
done

$ printf 'foo\nbar' | sh ./read.sh 
line: foo
line: bar
$ printf 'foo\nbar\n' | sh ./read.sh 
line: foo
line: bar

Question 3

经过定义，文本文件由一系列行组成。 A线以换行符结尾。因此，文本文件以换行符结尾，除非它是空的。

内置read函数仅用于读取文本文件。您没有传递文本文件，因此您不能希望它能够无缝工作。 shell 读取所有行——它跳过的是最后一行之后的额外字符。

如果您有一个可能格式错误的输入文件，可能缺少最后一行，您可以向其中添加换行符，以确保万无一失。

{ cat "/tmp/urlFile"; echo; } | …

应该是文本文件但缺少最后换行符的文件通常是由 Windows 编辑器生成的。这通常与 Windows 行结束符结合使用，即 CR LF，而不是 Unix 的 LF。 CR 字符在任何地方都很少有用，并且在任何情况下都不能出现在 URL 中，因此您应该将其删除。

{ <"/tmp/urlFile" tr -d '\r'; echo; } | …

如果输入文件格式正确并且以换行符结尾，则会echo添加一个额外的空行。由于 URL 不能为空，因此只需忽略空行即可。

另请注意，它read不会以直接的方式读取行。它忽略前导和尾随空白，这对于 URL 来说可能是理想的。它将行末尾的反斜杠视为转义字符，导致下一行与第一行减去反斜杠换行序列相连接，这绝对是不可取的。所以你应该将-r选项传递给read.这是非常非常罕见的，read而不是正确的事情read -r。

{ <"/tmp/urlFile" tr -d '\r'; echo; } | while read -r url
do
  if [ -z "$url" ]; then continue; fi
  …
done

Answer