对大型文件进行“多次”脚本化修改（文件系统级别）？

Question 1

磁盘上文件的结构取决于所使用的文件系统。现实世界的文件系统都不使用您所描述的链接列表（这会让人fseek(3)难以忍受）。与此最接近的是微软的胖的，本质上是将指针从数据块移到一个数组中来隐藏它们。

但大多数文件系统确实使用一些对文件中数据块的基于指针的引用，因此原则上，只需打乱少量指针（而不是整个文件内容）并在文件中标记一个块，就可以剪切出文件的一个块。文件的中间部分是空闲的。遗憾的是，这不是一个非常有用的操作，文件块相当大（通常为 4KiB），并且很少与文件中的结构（无论是行还是其他细分）合理对齐。

Answer

磁盘上文件的结构取决于所使用的文件系统。现实世界的文件系统都不使用您所描述的链接列表（这会让人fseek(3)难以忍受）。与此最接近的是微软的胖的，本质上是将指针从数据块移到一个数组中来隐藏它们。

但大多数文件系统确实使用一些对文件中数据块的基于指针的引用，因此原则上，只需打乱少量指针（而不是整个文件内容）并在文件中标记一个块，就可以剪切出文件的一个块。文件的中间部分是空闲的。遗憾的是，这不是一个非常有用的操作，文件块相当大（通常为 4KiB），并且很少与文件中的结构（无论是行还是其他细分）合理对齐。

Question 2

你所描述的听起来很像重播一个文本编辑器的重做列表针对未更改的原始文件重做列表属于.我很确定gvim有这样一个坚持不懈的撤消/重做列表，您可能（？）能够利用它，而且我知道emacs肯定有这样一个列表，您很可能可以哄骗它做任何您想做的事情（通过脚本elisp），例如。保存会话之间的 Emacs 撤消历史记录。

顺便说一句，对于如此大的文件，关闭所有不需要的操作可能是一个好主意，例如：自动保存,语法高亮显示（慢上大的emacs 文件）等，32 位系统上的 emacs 有 256 MB文件大小限制。

它当然不会像您所建议的那样简洁，但如果没有大量更改，则可能有用。

Answer

你所描述的听起来很像重播一个文本编辑器的重做列表针对未更改的原始文件重做列表属于.我很确定gvim有这样一个坚持不懈的撤消/重做列表，您可能（？）能够利用它，而且我知道emacs肯定有这样一个列表，您很可能可以哄骗它做任何您想做的事情（通过脚本elisp），例如。保存会话之间的 Emacs 撤消历史记录。

顺便说一句，对于如此大的文件，关闭所有不需要的操作可能是一个好主意，例如：自动保存,语法高亮显示（慢上大的emacs 文件）等，32 位系统上的 emacs 有 256 MB文件大小限制。

它当然不会像您所建议的那样简洁，但如果没有大量更改，则可能有用。

Question 3

通常，如果不将整个文件放入内存，则无法就地编辑文件。我假设您真正想要做的只是拥有一个新文件，它是旧文件的副本，没有特定的行。这可以使用 unix 实用程序head和轻松完成tail。例如，要从文件中复制除第 5、12 和 52 行之外的所有内容，您可以执行以下操作

head -n 4 bigfile.dat > tempfile.dat
tail -n +6 bigfile.dat | head -n 6 >> tempfile.dat 
tail -n +13 bigfile.dat | head -n 39 >> tempfile.dat 
tail -n 53 bigfile.dat >> tempfile.dat

如果您不熟悉这些实用程序，我将更详细地解释。

该head实用程序打印出文件中的前 n 行。如果没有给出位置参数，它将使用标准输入作为文件。该-n标志告诉 head 要打印多少行。因此，head -n 2将仅打印标准输入的前两行。

该tail实用程序打印出文件的最后 n 行。与 head 一样，它可以从文件或标准输入中读取。 -n 标志告诉 tail 从末尾开始打印多少行。您还可以在数字前面加上加号，以告诉 tail 从文件末尾开始打印从开头开始的那么多行。例如，tail -n 2打印标准输入的最后两行。但是tail -n +2打印出从第 2 行开始的所有行（省略第 1 行）。

所以一般来说，如果你想从文件中打印 [x, y) 范围内的行，你会这样做

`tail -n +x | head -n d`

其中 d = y - x。这些命令将生成一个新文件。如果您愿意，您可以删除旧文件。这样做的好处是，每次只需要在内存中保留一行，因此它不会很快填满您的 RAM head。tail

Answer