合并超过 6 亿行的文本文件

Question 1

我认为最好的方法是使用你最了解的编程/脚本语言：

将 small.txt 加载到以单词为键的内存哈希/映射/关联数组中
逐行处理 huge.txt，添加从哈希中查找的列并将结果写入输出文件
缓冲输入和输出，使其至少以 4K 的块进行

Answer

我认为最好的方法是使用你最了解的编程/脚本语言：

将 small.txt 加载到以单词为键的内存哈希/映射/关联数组中
逐行处理 huge.txt，添加从哈希中查找的列并将结果写入输出文件
缓冲输入和输出，使其至少以 4K 的块进行

Question 2

以 Michael Borgwardt 的回答为基础：只要两个文件都已排序，你只需执行合并排序的一个步骤即可将它们放在一起。这与标准合并排序略有不同，因为你只想保留其中一个文件。当然，这必须用你最喜欢的编程语言来实现。

以下是该算法的草图：

line1 = read a line from file 1
line2 = read a line from file 2
start of loop:
if (first word of line1 == first word of line2) {
    write all fields of line1
      and second field of line2 to output
    line1 = read a line from file 1
    go to start of loop
}
else if (first word of line1 < first word of line2) {
    write line1 to output
    line1 = read a line from file 1
    go to start of loop
}
else (first word of line1 > first word of line2) {
    line2 = read a line from file 2
    go to start of loop
}

这是一个 Python 版本（因为 Python 只是我最了解的语言，并不一定是最适合这项工作的语言）：

file1 = open('file1', 'r')
file2 = open('file2', 'r')
w2, n2 = file2.readline().split()
for line1 in file1:
  w11, w12, w13, w14, n15 = line1.split()
  if w11 == w2:
    print w11, w12, w13, w14, n15, n2
    continue
  elif w11 < w2:
    print w11, w12, w13, w14, n15
    continue
  else:
    while w11 > w2:
      w2, n2 = file2.readline().split()
    if w11 == w2:
      print w11, w12, w13, w14, n15, n2
    elif w11 < w2:
      print w11, w12, w13, w14, n15

为了完整性，经过一番挖掘，我为 Awk 提出了以下几点：

BEGIN {
  getline line2 <"file2";
  split(line2, a);
}
{
  if (a[1] == $1) print $0,a[2];
  else if (a[1] < $1) print $0;
  else { getline line2 <"file2"; split(line2, a); }
}

以身份调用awk -f program.awk <file1。

Answer

以 Michael Borgwardt 的回答为基础：只要两个文件都已排序，你只需执行合并排序的一个步骤即可将它们放在一起。这与标准合并排序略有不同，因为你只想保留其中一个文件。当然，这必须用你最喜欢的编程语言来实现。

以下是该算法的草图：

line1 = read a line from file 1
line2 = read a line from file 2
start of loop:
if (first word of line1 == first word of line2) {
    write all fields of line1
      and second field of line2 to output
    line1 = read a line from file 1
    go to start of loop
}
else if (first word of line1 < first word of line2) {
    write line1 to output
    line1 = read a line from file 1
    go to start of loop
}
else (first word of line1 > first word of line2) {
    line2 = read a line from file 2
    go to start of loop
}

这是一个 Python 版本（因为 Python 只是我最了解的语言，并不一定是最适合这项工作的语言）：

file1 = open('file1', 'r')
file2 = open('file2', 'r')
w2, n2 = file2.readline().split()
for line1 in file1:
  w11, w12, w13, w14, n15 = line1.split()
  if w11 == w2:
    print w11, w12, w13, w14, n15, n2
    continue
  elif w11 < w2:
    print w11, w12, w13, w14, n15
    continue
  else:
    while w11 > w2:
      w2, n2 = file2.readline().split()
    if w11 == w2:
      print w11, w12, w13, w14, n15, n2
    elif w11 < w2:
      print w11, w12, w13, w14, n15

为了完整性，经过一番挖掘，我为 Awk 提出了以下几点：

BEGIN {
  getline line2 <"file2";
  split(line2, a);
}
{
  if (a[1] == $1) print $0,a[2];
  else if (a[1] < $1) print $0;
  else { getline line2 <"file2"; split(line2, a); }
}

以身份调用awk -f program.awk <file1。

Question 3

我的回答与 Michael Borgwardt 的类似，但您不必将两个文件全部加载到内存中。如果两个文件都已排序，则您一次一行地浏览第一个文件，然后对第二个文件进行二分搜索以找到目标行。这需要大量高清访问，但内存消耗很低。

Answer

我的回答与 Michael Borgwardt 的类似，但您不必将两个文件全部加载到内存中。如果两个文件都已排序，则您一次一行地浏览第一个文件，然后对第二个文件进行二分搜索以找到目标行。这需要大量高清访问，但内存消耗很低。

Question 4

好的，这种方法使用http://cr.yp.to/cdb.html作为一种更快捷的方式来查找“small.txt”的内容：

去安装cdbmake（Ubuntu 中“freecdb”包的一部分，但有很多可用的实现。

使用 awk 将 small.txt 传输到cdbmake。

% awk '    { printf "+%d,%d:%s->%s\n", \
                length($1),length($2),$1,$2 } \
       END { print "" }' | cdbmake small.cdb small.cdbtmp

（这会将“small.txt”中的一行从“key value”之类的内容转换为“+ks,vs:key->value”。）

现在逐行浏览“huge.txt”并将其打印出来，查找“small.cdb”中的第一个单词：

#!/bin/python
import cdb
import fileinput

c = cdb.init("small.cdb")
for l in fileinput.input(['huge.txt']):
    print l.strip(),
    v = c.get(l.split()[0])
    print "" if v == None else v

当然，你必须安装 python-cdb 才能使这个小代码片段工作（并且它只适用于 Python 2.5，因为'条件表达式'。无论如何，无论您喜欢哪种语言，都有很多绑定。您也可以使用cdbget（命令行工具）并反复调用它，但为数百万行生成一个新的进程有点低效。

无论如何，请记住这一点：

每个 .cdb 文件不能大于 4 GB。因此，如果您必须处理大小为 10 GB 的“small.txt”，则显然必须将其拆分为多个文件并创建“small1.cdb”、“small2.cdb”、“small3.cbd”等。这应该是一项简单的任务。
您不需要对“small.txt”进行排序，因为在 cdb 文件中查找速度非常快。
我没有在这里对我的小测试用例进行计时，它是基于您提供的内容。:)

Answer