在大型文本文件（19 GB）上使用“head”或“tail”

Question 1

您应该使用sed。

sed -n -e 45000000,45000100p -e 45000101q bigfile > savedlines

这告诉sed打印第 45000000 行至第 45000100 行（含），并在第 45000101 行退出。

Answer

您应该使用sed。

sed -n -e 45000000,45000100p -e 45000101q bigfile > savedlines

这告诉sed打印第 45000000 行至第 45000100 行（含），并在第 45000101 行退出。

Question 2

创建一个包含单个字段的单个表的 MySQL 数据库。然后将文件导入数据库。这样可以非常轻松地查找某一行。

我认为没有其他方法可以更快（如果head已经tail失败）。最后，想要查找行的应用程序n必须搜索整个文件，直到找到n换行符。如果没有某种查找（行索引到文件中的字节偏移量），就无法实现更好的性能。

考虑到创建 MySQL 数据库和将数据导入其中非常容易，我觉得这是一种可行的方法。

具体操作如下：

DROP DATABASE IF EXISTS helperDb;
CREATE DATABASE `helperDb`;
CREATE TABLE `helperDb`.`helperTable`( `lineIndex` BIGINT UNSIGNED NOT NULL AUTO_INCREMENT, `lineContent` MEDIUMTEXT , PRIMARY KEY (`lineIndex`) );
LOAD DATA INFILE '/tmp/my_large_file' INTO TABLE helperDb.helperTable (lineContent);
SELECT lineContent FROM helperTable WHERE ( lineIndex > 45000000 AND lineIndex < 45000100 );

/tmp/my_large_file就是您想要读取的文件。

导入每行具有制表符分隔值的文件的正确语法是：

LOAD DATA INFILE '/tmp/my_large_file' INTO TABLE helperDb.helperTable FIELDS TERMINATED BY '\n' (lineContent);

这样做的另一个主要优点是，如果您稍后决定提取另一组行，则不必再次等待数小时进行处理（当然，除非您删除数据库）。

Answer