我有一个 txt 文件,其中最多可包含 13,000,000 个由 php 中的 fputcsv 函数用“\n”分隔的随机生成的代码。
从此文件中删除重复项的最有效方法是什么?
谢谢!
答案1
我认为这里的问题是 Excel 有1,048,576 行您的数据集有 1300 万个条目。每个条目应占一行。
假设你使用的是 Windows,你可以使用一个名为记事本++查找并删除重复项。答案在堆栈溢出建议使用正则表达式或插件。
我会使用正则表达式选项。以下是 SO 答案的简要总结。
- 确保每个条目都在一行上
- 打开查找和替换
- 选择正则表达式模式
^(.*?)$\s+?^(?=.*^\1$)
在搜索框中输入表达式- 将替换框留空
- 单击“全部替换”
如果此数据是从数据库导出的,您可能需要考虑在导出之前修改 SQL 语句,方法是DISTINCT
在 后添加SELECT
。请参阅这里举个例子。