复制文件，替换字符，然后连接

Question 1

当您将数据附加到正在读取的文件时，您将面临进入无限循环并永远增长文件的风险，因为您最终会处理之前写入的数据。

你可以通过以下方法来防范这种情况：

perl -pe '
  BEGIN{seek(STDOUT,0,2);$end = tell STDOUT}
  last if tell(ARGV) > $end;
  s/i/o/' < file >> file

在 Perl 脚本中：

open OUT, ">>", "file" or die "open file: $!";
open IN, "<", "file" or die "open file: $!";
seek(OUT,0,2) or die "seek: $!";
$end = tell OUT;
while (tell IN < $end && <IN>) {
  s/i/o/;
  print OUT $_;
}
close IN;
close OUT;

Answer

当您将数据附加到正在读取的文件时，您将面临进入无限循环并永远增长文件的风险，因为您最终会处理之前写入的数据。

你可以通过以下方法来防范这种情况：

perl -pe '
  BEGIN{seek(STDOUT,0,2);$end = tell STDOUT}
  last if tell(ARGV) > $end;
  s/i/o/' < file >> file

在 Perl 脚本中：

open OUT, ">>", "file" or die "open file: $!";
open IN, "<", "file" or die "open file: $!";
seek(OUT,0,2) or die "seek: $!";
$end = tell OUT;
while (tell IN < $end && <IN>) {
  s/i/o/;
  print OUT $_;
}
close IN;
close OUT;

Question 2

sed 's/^i/o/;H;1h;$!d;x;q' <infile >>infile

如果文件足够小以适合内存，那么上面的方法应该可以工作。我想不出任何可能出现编码问题的原因，除非你sed有问题。理智的人sed应该处理你可能想扔给它的任何有效的字符编码。

如果它不够小，无法放入内存，那么在一个能够理解的系统上/dev/fd/[num]链接（实际上是任何类 Unix 系统），并给出一个使用 tmp 文件作为此处文档而不是管道的 shell（其中大多数，包括 Bourne shell、bash，zsh但不包括BSD 等变体yash，或者使用管道代替）ashshdashbusybox sh，并且有足够的可用${TMPDIR:-/tmp}空间来容纳正在编辑的缓冲区，那么以下应该可以工作：

sed -nf- file <<"" >>file
s/^i/o/
w /dev/fd/0
$r /dev/fd/0

这将起作用，因为 shell 将获取一个临时文件和此处文档的文件描述符，将脚本写入sed其中，unlink()即临时文件（因此删除其在文件系统中唯一的链接），然后分叉 sed为子级来继承它，并将其自己的状态恢复到调用之前的状态sed- 因此将其自己的描述符放入临时文件中。此时，该文件仅作为sed的 stdin 描述符存在，并且只要该文件的任何句柄存在，内核就必须维护该文件，但一旦释放所有描述符，它将删除文件系统为 0 的文件链接。

因此sed将从已删除的临时文件中读取其脚本-f，然后将其截断为其命名的write 文件 - 这只是它读取其脚本的已删除文件的链接 - 在提取每个输入行之前，它将写入一个其模式空间的副本。sed会自动打印-n任何东西，但在它的$最后一个输入行上，它会将它r一直在编写的文件写入到它的标准输出中w- 并且该文件将被>>附加到它的命名编辑中file。

当sed完成并且其进程终止时<<""，here-doc 源的最后一个剩余描述符将被关闭，内核随后将清理该文件。同时，没有其他进程可以通过任何方式访问该文件，因此它不会受到其他进程以某种方式影响sed工作缓冲区的任何可能性。

如果-nf-不起作用，可能只是因为您sed没有将其解释-为 stdin（虽然大多数都是）你应该使用-nf/dev/fd/0.

Answer

sed 's/^i/o/;H;1h;$!d;x;q' <infile >>infile