对大文件中的行进行重复数据删除

Question 1

在我看来，您目前正在遵循的流程是这样的，该流程因内存不足错误而失败：

创建多个数据文件
将它们连接在一起
对结果进行排序，丢弃重复的记录（行）

我认为你应该能够执行以下过程

创建多个数据文件
独立对每一项进行排序，丢弃其重复项 ( sort -u)
合并排序后的数据文件的结果集，丢弃重复项 ( sort -m -u)

Answer

在我看来，您目前正在遵循的流程是这样的，该流程因内存不足错误而失败：

创建多个数据文件
将它们连接在一起
对结果进行排序，丢弃重复的记录（行）

我认为你应该能够执行以下过程

创建多个数据文件
独立对每一项进行排序，丢弃其重复项 ( sort -u)
合并排序后的数据文件的结果集，丢弃重复项 ( sort -m -u)

Question 2

当然没有 GNU/Linux 工具：什么是源代码控制系统 (SCCS) 的一部分，我认为 Linux 中根本不存在该系统。

所以，大概您使用的是 Unix。那里有种类算法能够处理这些问题：UNIX Sort 命令的算法细节指出大小的输入中号，具有大小的内存氮, 又分为月/日适合内存的块，并且是连续处理的。

它应该符合要求。

Answer

当然没有 GNU/Linux 工具：什么是源代码控制系统 (SCCS) 的一部分，我认为 Linux 中根本不存在该系统。

所以，大概您使用的是 Unix。那里有种类算法能够处理这些问题：UNIX Sort 命令的算法细节指出大小的输入中号，具有大小的内存氮, 又分为月/日适合内存的块，并且是连续处理的。

它应该符合要求。

Question 3

% perl -ne 'if ( $seen{$_}++ ) {
    $count++ ;
    if ($count > 1000000) {
        $seen = () ;
        $count = 0 ;
    }
} else {
    print ;
}' <eof   
a
a
a
b
c
a
a
a
b
c
eof   
a
b
c
%

Answer

% perl -ne 'if ( $seen{$_}++ ) {
    $count++ ;
    if ($count > 1000000) {
        $seen = () ;
        $count = 0 ;
    }
} else {
    print ;
}' <eof   
a
a
a
b
c
a
a
a
b
c
eof   
a
b
c
%

对大文件中的行进行重复数据删除

答案1

答案2

答案3

相关内容