从大文件开头删除文本的最佳方法

Question 1

bunzip2 -c backup.sql.bz2 | \
  sed -n '/-- Table structure for `mytable`/,$p'

解释：

-n suppress automatic printing of pattern space

地址范围构造：以正则表达式开始

/-- Table structure for  `mytable`/

结尾

$ Match the last line.

命令

p Print the current pattern space.

编辑：取决于你如何转储数据库，你可能有非常长行。GNU sed 可以处理这些行，直到可用内存量达到最大值。

Answer

bunzip2 -c backup.sql.bz2 | \
  sed -n '/-- Table structure for `mytable`/,$p'

解释：

-n suppress automatic printing of pattern space

地址范围构造：以正则表达式开始

/-- Table structure for  `mytable`/

结尾

$ Match the last line.

命令

p Print the current pattern space.

编辑：取决于你如何转储数据库，你可能有非常长行。GNU sed 可以处理这些行，直到可用内存量达到最大值。

Question 2

注意：不是实际答案

因为我有动力解决这个问题现在之后，我继续grep查找我想要的文件中的偏移量；效果很好。

不幸的是，运行dd需要您设置ibs=1，这基本上意味着没有缓冲，而且性能很糟糕。在等待 dd 完成时，我花了一些时间编写自己的定制 C 程序来跳过字节。完成之后，我发现这tail对我来说同样容易：

$ bunzip2 -c restore.sql.bz2 | tail -c +[offset] | bzip2 -c > restore-trimmed.sql.bz2

我说“这没有回答我的问题”是因为它仍然需要两次传递文件：一次是找到我正在寻找的东西的偏移量，另一次是修剪文件。

如果我回到我的自定义程序，我可以实现一个钾通道蛋白在程序的“只读”阶段，然后切换到“读取+写入所有内容”。

Answer