有没有更快的方法从文件中删除行（给定行号）？

Question 1

为了避免写入文件的副本，您可以做的就是将文件写入自身，如下所示：

{
  sed "$l1,$l2 d" < file
  perl -le 'truncate STDOUT, tell STDOUT'
} 1<> file

危险，因为你没有备份副本。

或者避免sed，窃取 manatwork 的部分想法：

{
  head -n "$(($l1 - 1))"
  head -n "$(($l2 - $l1 + 1))" > /dev/null
  cat
  perl -le 'truncate STDOUT, tell STDOUT'
} < file 1<> file

这仍然可以改进，因为你正在覆盖第一个l1-1虽然你不需要这样做，但避免它意味着更多地涉及编程，例如做所有perl可能最终效率较低的事情：

perl -ne 'BEGIN{($l1,$l2) = ($ENV{"l1"}, $ENV{"l2"})}
    if ($. == $l1) {$s = tell(STDIN) - length; next}
    if ($. == $l2) {seek STDOUT, $s, 0; $/ = \32768; next}
    if ($. > $l2) {print}
    END {truncate STDOUT, tell STDOUT}' < file 1<> file

从的输出中删除第 1000000 到 1000050 行的一些时序seq 1e7：

sed -i "$l1,$l2 d" file：16.2秒
第一个解决方案：1.25s
第二解：0.057s
第三解：0.48s

< file它们都遵循相同的原理：我们为文件打开两个文件描述符，一个使用缩写 for处于只读模式 (0) ，另一个使用( will be )0< file处于读写模式 (1) 。这些文件描述符指向两个1<> file<> file0<> file打开文件描述每个都有一个电流光标位置在与它们关联的文件中。

例如，在第二个解决方案中，第一个解决方案将从 fd 0head -n "$(($l1 - 1))"读取$l1 - 1行数据并将该数据写入 fd 1。因此，在该命令结束时，光标在两个打开文件描述与 fds 0 和 1 关联的将位于第 3 行的开头$l1。

然后， in head -n "$(($l2 - $l1 + 1))" > /dev/null，将从相同的行中head读取行$l2 - $l1 + 1打开文件描述通过仍然与其关联的 fd 0，因此 fd 0 上的光标将移动到该行之后的行首$l2。

但它的 fd 1 已经被重定向到/dev/null，所以写入 fd 1 后，它不会移动光标在打开文件描述{...}由的 fd 1指向。

因此，启动后cat，光标位于打开文件描述fd 0 指向的位置将位于下一行的开头$l2，而 fd 1 上的光标仍将位于$l1第 3 行的开头。或者说，那一秒head将跳过这些行以在输入上删除，但不会在输出上删除。现在cat将$l1用后面的下一行覆盖第 th 行$l2，依此类推。

cat当到达 fd 0 上的文件末尾时将返回。但是 fd 1 将指向文件中尚未被覆盖的某个位置。该部分必须消失，它对应于现在移至文件末尾的已删除行所占用的空间。我们需要的是在 fd 1 现在指向的确切位置截断文件。

这是通过ftruncate系统调用完成的。不幸的是，没有标准的 Unix 实用程序可以做到这一点，因此我们求助于perl.tell STDOUT给我们与 fd 1 关联的当前光标位置。我们使用 perl 的系统调用接口在该偏移处截断文件ftruncate：truncate。

head在第三种解决方案中，我们用一个系统调用替换第一个命令对 fd 1 的写入lseek。

Answer

为了避免写入文件的副本，您可以做的就是将文件写入自身，如下所示：

{
  sed "$l1,$l2 d" < file
  perl -le 'truncate STDOUT, tell STDOUT'
} 1<> file