如何从出现某种模式的行开始剪切文件？

Question 1

您应该能够通过直接截断文件来做到这一点，而不必像sed -i/ perl -i/ ed/ gawk -i /usr/share/awk/inplace.awk¹ 那样写入文件的新副本。使用perl：

find . -name '*.txt' -type f -exec perl -ne '
  BEGIN{@ARGV=map{"+<$_"}@ARGV} # open files in read+write mode in the
                                # while(<>) loop implied by -n
  if (/END DATA/) {
    seek ARGV,-length,1; # back to beginning of matching line
    print ARGV "NEW END\n";
    truncate ARGV, tell ARGV;
    close ARGV; # skip to next file
  }' {} +

这最大限度地减少了 I/O，因为perl一旦找到匹配项就会停止读取，并且这 NEW END\n是它唯一写入的内容。它还会就地写入，因此文件元数据（所有权、权限、acls、稀疏性...）会被保留，并且硬链接不会被破坏。

我们-exec {} +还可以最大限度地减少调用次数perl。

^{^不使用-i inplaceas尝试首先从当前工作目录gawk加载inplace扩展（asinplace或），有人可能已经在其中植入了恶意软件。随系统提供的扩展inplace.awk的路径可能会有所不同，请参阅输出inplacegawkgawk 'BEGIN{print ENVIRON["AWKPATH"]}'}

Answer

您应该能够通过直接截断文件来做到这一点，而不必像sed -i/ perl -i/ ed/ gawk -i /usr/share/awk/inplace.awk¹ 那样写入文件的新副本。使用perl：

find . -name '*.txt' -type f -exec perl -ne '
  BEGIN{@ARGV=map{"+<$_"}@ARGV} # open files in read+write mode in the
                                # while(<>) loop implied by -n
  if (/END DATA/) {
    seek ARGV,-length,1; # back to beginning of matching line
    print ARGV "NEW END\n";
    truncate ARGV, tell ARGV;
    close ARGV; # skip to next file
  }' {} +

这最大限度地减少了 I/O，因为perl一旦找到匹配项就会停止读取，并且这 NEW END\n是它唯一写入的内容。它还会就地写入，因此文件元数据（所有权、权限、acls、稀疏性...）会被保留，并且硬链接不会被破坏。

我们-exec {} +还可以最大限度地减少调用次数perl。

^{^不使用-i inplaceas尝试首先从当前工作目录gawk加载inplace扩展（asinplace或），有人可能已经在其中植入了恶意软件。随系统提供的扩展inplace.awk的路径可能会有所不同，请参阅输出inplacegawkgawk 'BEGIN{print ENVIRON["AWKPATH"]}'}

Question 2

听起来您正在寻找的命令序列是

/END DATA/,$d
q
.a
NEW END
.
wq

或作为单行

printf '%s\n' '/END DATA/,$d' 'q' '.a' 'NEW END' '.' 'wq'

（您可以替换wq为,p进行测试。）

前任。给定

$ cat file
Data 1
Data 2
something_unimportant_here END DATA
Rubbish 1
Rubbish 2

然后

$ printf '%s\n' '/END DATA/,$d' 'q' '.a' 'NEW END' '.' 'wq' | ed -s file

给出

$ cat file
Data 1
Data 2
NEW END

Answer

听起来您正在寻找的命令序列是

/END DATA/,$d
q
.a
NEW END
.
wq

或作为单行

printf '%s\n' '/END DATA/,$d' 'q' '.a' 'NEW END' '.' 'wq'

（您可以替换wq为,p进行测试。）

前任。给定

$ cat file
Data 1
Data 2
something_unimportant_here END DATA
Rubbish 1
Rubbish 2

然后

$ printf '%s\n' '/END DATA/,$d' 'q' '.a' 'NEW END' '.' 'wq' | ed -s file

给出

$ cat file
Data 1
Data 2
NEW END

Question 3

与GNU grep和GNU sed

grep -lZ 'END DATA' *.txt | xargs -0 sed -i -e '/END DATA/,${//i foo' -e 'd}'

其中*.txt假设所有文件都位于以.txt扩展名结尾的当前目录中。如果需要递归搜索文件，GNU grep也支持-r/-R选项。

/END DATA/,$运营线路范围

//i foo这里//将匹配以前使用的正则表达式，/END DATA/即i命令将根据需要添加新的结束标记

由于i命令必须用换行符分隔，因此-e选项用于分隔d命令以删除与范围匹配的所有行

作为替代方案，您也可以使用此方法，但一次只会将一个文件传递到sed：

grep -lZ 'END DATA' *.txt | xargs -0 -n1 sed -i -e '/END DATA/{i foo' -e 'Q}'

Answer