如何使用 awk 和值中的管道从管道分隔文件中删除重复项？

Question 1

使用 GNU awk 可以FPAT：

$ awk -v c='2,6' -v FPAT='([^|]*)|("[^"]*")' 'BEGIN{split(c,k,",")} {key=""; for (i in k) key=key RS $(k[i])} !seen[key]++' file
3|XX|""|2022-04-05T21:39:22.899Z|2022-04-05T21:37:59Z|X7

如果您可以像这样嵌套双引号"foo""bar"，则将 FPAT 分配更改为FPAT='[^|]*|("([^"]|"")*")'

看使用 awk 高效解析 csv 的最稳健方法是什么了解更多信息。

Answer

使用 GNU awk 可以FPAT：

$ awk -v c='2,6' -v FPAT='([^|]*)|("[^"]*")' 'BEGIN{split(c,k,",")} {key=""; for (i in k) key=key RS $(k[i])} !seen[key]++' file
3|XX|""|2022-04-05T21:39:22.899Z|2022-04-05T21:37:59Z|X7

如果您可以像这样嵌套双引号"foo""bar"，则将 FPAT 分配更改为FPAT='[^|]*|("([^"]|"")*")'

看使用 awk 高效解析 csv 的最稳健方法是什么了解更多信息。

Question 2

你可以用类似 awk 的方式来做到这一点磨坊主

mlr --csv --fs '|' --implicit-csv-header --headerless-csv-output --quote-original filter '
  key = $2.FS.$6; @seen[key] += 1; @seen[key] == 1'
' file
3|XX|""|2022-04-05T21:39:22.899Z|2022-04-05T21:37:59Z|X7

（似乎不可能使用确切的类比，!@seen[$6]++因为米勒有不自动转换为布尔值也不是后自增运算符。）

Answer

你可以用类似 awk 的方式来做到这一点磨坊主

mlr --csv --fs '|' --implicit-csv-header --headerless-csv-output --quote-original filter '
  key = $2.FS.$6; @seen[key] += 1; @seen[key] == 1'
' file
3|XX|""|2022-04-05T21:39:22.899Z|2022-04-05T21:37:59Z|X7

（似乎不可能使用确切的类比，!@seen[$6]++因为米勒有不自动转换为布尔值也不是后自增运算符。）

如何使用 awk 和值中的管道从管道分隔文件中删除重复项？

答案1

答案2

相关内容