合并仅按特定列比较的两个 CSV

Question

使用 awk 超级简单：

$ awk -F'|' 'NR == FNR {old[$2]; next} !($2 in old)' old.csv new.csv
"glider"|"person"|"airport"
"glider"|"person2"|"airport"

它将 old.csv 文件的第二个字段存储在名为“old”的数组中，然后对于 new.csv 文件，它将打印第二个字段不在“old”数组中的记录。

确实，这不会尊重引号内的任何管道字符。为此，我喜欢 ruby 的 csv 模块：

ruby -rcsv  -e '
  old_col2 = []
  old_data = CSV.foreach("./old.csv", :col_sep => "|") do |row|
    old_col2 << row[1]
  end

  CSV.foreach("./new.csv", :col_sep => "|") do |row|
    if not old_col2.include?(row[1])
      puts CSV.generate_line(row, :col_sep => "|", :force_quotes => true)
    end
  end
'

Answer 1

使用 awk 超级简单：

$ awk -F'|' 'NR == FNR {old[$2]; next} !($2 in old)' old.csv new.csv
"glider"|"person"|"airport"
"glider"|"person2"|"airport"

它将 old.csv 文件的第二个字段存储在名为“old”的数组中，然后对于 new.csv 文件，它将打印第二个字段不在“old”数组中的记录。

确实，这不会尊重引号内的任何管道字符。为此，我喜欢 ruby 的 csv 模块：

ruby -rcsv  -e '
  old_col2 = []
  old_data = CSV.foreach("./old.csv", :col_sep => "|") do |row|
    old_col2 << row[1]
  end

  CSV.foreach("./new.csv", :col_sep => "|") do |row|
    if not old_col2.include?(row[1])
      puts CSV.generate_line(row, :col_sep => "|", :force_quotes => true)
    end
  end
'

合并仅按特定列比较的两个 CSV

答案1

相关内容