根据指定列从 CSV 中删除重复项

Question 1

我将创建前 5 个字段的“键”，然后仅在第一次看到该键时打印一行：

awk -F, '
  {key = $1 FS $2 FS $3 FS $4 FS $5}
  !seen[key]++ 
' file

year,manufacturer,brand,series,variation,card_number,card_title,sport,team
2015,Leaf,Trinity,Printing Plates,Magenta,TS-JH2,John Amoth,Soccer,
2015,Leaf,Metal Draft,Touchdown Kings,Die-Cut Autographs Blue Prismatic,TDK-DF1,Darren Smith,Football,
2015,Leaf,Trinity,Patch Autograph,Bronze,PA-DJ2,Duke Johnson,Football,
2015,Leaf,Army All-American Bowl,5-Star Future Autographs,,FSF-RG1,Rasheem Green,Soccer,

Answer

我将创建前 5 个字段的“键”，然后仅在第一次看到该键时打印一行：

awk -F, '
  {key = $1 FS $2 FS $3 FS $4 FS $5}
  !seen[key]++ 
' file

year,manufacturer,brand,series,variation,card_number,card_title,sport,team
2015,Leaf,Trinity,Printing Plates,Magenta,TS-JH2,John Amoth,Soccer,
2015,Leaf,Metal Draft,Touchdown Kings,Die-Cut Autographs Blue Prismatic,TDK-DF1,Darren Smith,Football,
2015,Leaf,Trinity,Patch Autograph,Bronze,PA-DJ2,Duke Johnson,Football,
2015,Leaf,Army All-American Bowl,5-Star Future Autographs,,FSF-RG1,Rasheem Green,Soccer,

Question 2

首先使用 awk 进行装饰，以在排序期间将标题行保留在顶部，然后使用任何 awk+sort+cut：

$ awk -v OFS=',' '{print (NR>1), $0}' file | sort -u -t, -k1,6 | cut -d, -f2-
year,manufacturer,brand,series,variation,card_number,card_title,sport,team
2015,Leaf,Army All-American Bowl,5-Star Future Autographs,,FSF-RG1,Rasheem Green,Soccer,
2015,Leaf,Metal Draft,Touchdown Kings,Die-Cut Autographs Blue Prismatic,TDK-DF1,Darren Smith,Football,
2015,Leaf,Trinity,Patch Autograph,Bronze,PA-DJ2,Duke Johnson,Football,
2015,Leaf,Trinity,Printing Plates,Magenta,TS-JH2,John Amoth,Soccer,

Answer

首先使用 awk 进行装饰，以在排序期间将标题行保留在顶部，然后使用任何 awk+sort+cut：

$ awk -v OFS=',' '{print (NR>1), $0}' file | sort -u -t, -k1,6 | cut -d, -f2-
year,manufacturer,brand,series,variation,card_number,card_title,sport,team
2015,Leaf,Army All-American Bowl,5-Star Future Autographs,,FSF-RG1,Rasheem Green,Soccer,
2015,Leaf,Metal Draft,Touchdown Kings,Die-Cut Autographs Blue Prismatic,TDK-DF1,Darren Smith,Football,
2015,Leaf,Trinity,Patch Autograph,Bronze,PA-DJ2,Duke Johnson,Football,
2015,Leaf,Trinity,Printing Plates,Magenta,TS-JH2,John Amoth,Soccer,

Question 3

非awk解决方案：可以简单地使用sort，将字段 1 到 5 定义为比较字段-k，用作,字段分隔符 ( -t) 并-u仅选择唯一的条目：

 sort -t, -k1,5 -u infile

然而，这将使标题行位于最后。使用-r反向排序或通过例如分隔标题行

{ sed 1q infile ; sed 1d infile | sort -k1,5 -t, -u ; }

Answer

非awk解决方案：可以简单地使用sort，将字段 1 到 5 定义为比较字段-k，用作,字段分隔符 ( -t) 并-u仅选择唯一的条目：

 sort -t, -k1,5 -u infile

然而，这将使标题行位于最后。使用-r反向排序或通过例如分隔标题行

{ sed 1q infile ; sed 1d infile | sort -k1,5 -t, -u ; }

根据指定列从 CSV 中删除重复项

答案1

答案2

答案3

相关内容