从 CSV 文件中删除重复条目

Question 1

myfile.csv没有改变的原因是因为-u选项uniqwill仅有的打印独特的线条。在此文件中，所有行都是重复的，因此它们将不是被打印出来。

然而，更重要的是，输出不会被保存，myfile.csv因为uniq只会将其打印到stdout（默认情况下，您的控制台）。

你需要做这样的事情：

$ sort -u myfile.csv -o myfile.csv

选项的含义是：

您应该查看man sort更多信息。

Answer

myfile.csv没有改变的原因是因为-u选项uniqwill仅有的打印独特的线条。在此文件中，所有行都是重复的，因此它们将不是被打印出来。

然而，更重要的是，输出不会被保存，myfile.csv因为uniq只会将其打印到stdout（默认情况下，您的控制台）。

你需要做这样的事情：

$ sort -u myfile.csv -o myfile.csv

选项的含义是：

您应该查看man sort更多信息。

Question 2

如果您想保持文件的顺序（未排序）但仍删除重复项，您也可以这样做

awk '!v[$1]++' /tmp/file

例如

d
d
a
a
b
b
c
c
c
c
c

它将输出

d
a
b
c

Answer

如果您想保持文件的顺序（未排序）但仍删除重复项，您也可以这样做

awk '!v[$1]++' /tmp/file

例如

d
d
a
a
b
b
c
c
c
c
c

它将输出

d
a
b
c

Question 3

正如贝尔明所表明的那样，排序很棒。他的答案最适合未排序的数据，并且很容易记住和使用。

然而，它也是不稳定的，因为它改变了输入的顺序。如果您绝对需要以相同的顺序处理数据但删除后面的重复项，那么 awk 可能会更好。

$ cat myfile.csv
c
a
c
b
b
a
c


$ awk '{if (!($0 in x)) {print $0; x[$0]=1} }' myfile.csv
c
a
b

奇怪的边缘情况，但它确实不时出现。

另外，如果您在查看数据时已经对数据进行了排序，则可以运行 uniq。

$ cat myfile.csv 
a
a
a
b
b
c
c
c
c
c


$ uniq myfile.csv 
a
b
c

我的两个建议的缺点是您需要使用临时文件并将其复制回来。

Answer