比较两个大文本文件

Question 1

最明显的答案就是使用 diff 命令，并且向其中添加 --speed-large-files 参数可能是一个好主意。

diff --speed-large-files a.file b.file

您提到未排序的文件，所以也许您需要先对文件进行排序

sort a.file > a.file.sorted
sort b.file > b.file.sorted
diff --speed-large-files a.file.sorted b.file.sorted

您可以通过将第二排序输出直接传递到 diff 来保存创建额外的输出文件

sort a.file > a.file.sorted
sort b.file | diff --speed-large-files a.file.sorted -

显然，这些在具有大量可用内存的系统上运行得最好，并且您可能也需要大量的可用磁盘空间。

从你的问题中并不清楚你以前是否尝试过这些。如果是这样，那么了解出了什么问题（花费了太长时间等）将会很有帮助。我一直发现，库存排序和 diff 命令往往至少与自定义命令一样好，除非文件有一些非常特定于域的属性，使得可以以不同的方式执行操作。

Answer

最明显的答案就是使用 diff 命令，并且向其中添加 --speed-large-files 参数可能是一个好主意。

diff --speed-large-files a.file b.file

您提到未排序的文件，所以也许您需要先对文件进行排序

sort a.file > a.file.sorted
sort b.file > b.file.sorted
diff --speed-large-files a.file.sorted b.file.sorted

您可以通过将第二排序输出直接传递到 diff 来保存创建额外的输出文件

sort a.file > a.file.sorted
sort b.file | diff --speed-large-files a.file.sorted -

显然，这些在具有大量可用内存的系统上运行得最好，并且您可能也需要大量的可用磁盘空间。

从你的问题中并不清楚你以前是否尝试过这些。如果是这样，那么了解出了什么问题（花费了太长时间等）将会很有帮助。我一直发现，库存排序和 diff 命令往往至少与自定义命令一样好，除非文件有一些非常特定于域的属性，使得可以以不同的方式执行操作。

Question 2

对输入进行排序并告诉diff程序输入已排序将提供巨大的加速。我不知道有diff类似的选项，但comm假设输入已排序，如果它足够满足您的目的，速度会快得多。

Answer

对输入进行排序并告诉diff程序输入已排序将提供巨大的加速。我不知道有diff类似的选项，但comm假设输入已排序，如果它足够满足您的目的，速度会快得多。

Question 3

该bdiff工具可以处理比计算机 RAM 大得多的未排序文件。

bdiff使用这些步骤一次，在第一次使用之前下载并编译：

wget https://github.com/Arkanosis/Arkonf/raw/master/tools-src/bdiff.c && \
  gcc -Wformat=0 -Wno-long-long bdiff.c -o bdiff && \
  rm bdiff.c

运行bdiff并比较 2 个文件：

./bdiff a.file b.file

bdiff您可能会发现将输出重定向到文件很有帮助。感谢 @unhammer 的建议和 Git 存储库的链接。

Answer