从 txt 文件中删除重复项

从 txt 文件中删除重复项

我有一个 txt 文件,其中最多可包含 13,000,000 个由 php 中的 fputcsv 函数用“\n”分隔的随机生成的代码。

从此文件中删除重复项的最有效方法是什么?

谢谢!

答案1

我认为这里的问题是 Excel 有1,048,576 行您的数据集有 1300 万个条目。每个条目应占一行。

假设你使用的是 Windows,你可以使用一个名为记事本++查找并删除重复项。答案在堆栈溢出建议使用正则表达式或插件。

我会使用正则表达式选项。以下是 SO 答案的简要总结。

  1. 确保每个条目都在一行上
  2. 打开查找和替换
  3. 选择正则表达式模式
  4. ^(.*?)$\s+?^(?=.*^\1$)在搜索框中输入表达式
  5. 将替换框留空
  6. 单击“全部替换”

如果此数据是从数据库导出的,您可能需要考虑在导出之前修改 SQL 语句,方法是DISTINCT在 后添加SELECT。请参阅这里举个例子。

相关内容