我在 Excel 中有一个庞大的数据列表(超过 250,000 行),格式如下:
Number Value1 Date Value2
40325 1 21/01/11 18.10 2
65485 3 22/01/11 16.47 2
40325 9 25/01/11 19.00 0
70912 8 27/01/11 16.43 2
我需要根据第 1 列(数字)删除重复的行,使用 Excel 中的“数据/删除重复项”可以轻松完成此操作,但我需要确保根据第 3 列(日期)删除日期最早的行,并保留最新的行。
在上面的例子中,我需要删除第 1 行并保留第 3 行,因为第 3 行是最新的。
我有 4,800 行重复数据,因此手动排序/删除将是一项非常耗时的工作。
有什么好的建议吗?有什么技巧可以帮助我吗?提前谢谢 :)
答案1
诀窍是在使用之前对表格进行排序Remove duplicates
。Excel 始终保留重复行的第一个数据集。所有连续的行都将被删除。
就你的情况而言:
设置辅助列并用数值填充。从 1 开始,使用自动填充直到表格末尾
确保日期列的格式为日期,并且 Excel 会将其识别为日期。否则,排序将不起作用
选择
Custom sort
(取决于您的 Excel 版本)。按日期列对整个表格进行排序从最新到最旧.这是最重要的部分
仅使用
Remove duplicates
并选择您的数字包含检查重复项的条件的列。取消选择所有其他列
再次选择
Custom Sort
并按照我们在开头添加的辅助列对表格进行排序,以恢复原始行顺序