SSV/CSV 操作:计算比率

SSV/CSV 操作:计算比率

请注意,我知道datamash并且是一位经验丰富的awk用户。我正在寻找比awk.假设我有以下内容:

// data_file
foo bar biz
10  100 1000
11  150 990
10  95  1010
9   99  950
// usage goal, in pseudo code
cat data_file | <tool> --ratio foo,bar --ratio foo,biz --ratio bar,biz
// desired output
foo bar biz foo_bar foo_biz bar_biz
10  100 1000 0.1    0.01    0.1  
11  150 990  0.073  0.011   0.1515
10  95  1010 0.105  0.0099  0.094
9   99  950  0.09   0.0095  0.1042

为了获得这个接口,我将用 C++ 构建一些简单的东西。

在此之前,Unix 中是否有一个直接的解决方案?

答案1

使用米勒(https://github.com/johnkerl/miller)并运行

mlr --pprint put '$foo_bar=$foo/$bar;$foo_biz=$foo/$biz;$bar_biz=$bar/$biz' input >output

你有

foo bar biz  foo_bar  foo_biz  bar_biz
10  100 1000 0.100000 0.010000 0.100000
11  150 990  0.073333 0.011111 0.151515
10  95  1010 0.105263 0.009901 0.094059
9   99  950  0.090909 0.009474 0.104211

答案2

通过几个 bash 函数,paste如果您有要使用的文件,bc则可以非常直接地到达那里:csvtool

div() {
  printf "%1.4f\n" $(bc -l <<<"1.0 * $1 / $2")
}
export -f div

ratio() {
  echo "$1"_"$2"
  csvtool -t ' ' namedcol $1,$2 data.ssv |
  tail -n+2                              |
  csvtool call div -
}

paste -d ' ' <(cat data.ssv) <(ratio foo bar) <(ratio foo biz) <(ratio bar biz) |
csvtool -t ' ' readable -

输出:

foo bar biz  foo_bar foo_biz bar_biz 
10  100 1000 0.1000  0.0100  0.1000  
11  150 990  0.0733  0.0111  0.1515  
10  95  1010 0.1053  0.0099  0.0941  
9   99  950  0.0909  0.0095  0.1042 

如果您确实想以流式传输方式进行操作,那么您最好的选择可能是awk,例如:

解析.awk

# Parse the requested column ratios into dividend[] and divisor[]
# by column name
BEGIN {
  split(ratios_str, ratios, / +/)
  for(r in ratios) {
    split(ratios[r], cols, /,/)
    dividend[++i] = cols[1] 
    divisor[i]    = cols[2]
  }
}

# Sort out the header
NR == 1 { 
  # Create the ColumnName-to-ColumnNumber hash
  split($0, a); for(k in a) c2n[a[k]]=k

  # Print the header line
  printf "%s ", $0
  for(i=1; i<=length(dividend); i++)
    printf "%s_%s ", dividend[i], divisor[i]
  printf "\n"
}

NR > 1 {
  printf "%s ", $0
  for(i=1; i<=length(dividend); i++)
    printf "%1.4f ", $(c2n[dividend[i]]) / $(c2n[divisor[i]])
  printf "\n"
}

像这样运行它:

<data.ssv awk -f parse.awk -v ratios_str='foo,bar foo,biz bar,biz' | column -t

输出:

foo  bar  biz   foo_bar  foo_biz  bar_biz
10   100  1000  0.1000   0.0100   0.1000
11   150  990   0.0733   0.0111   0.1515
10   95   1010  0.1053   0.0099   0.0941
9    99   950   0.0909   0.0095   0.1042

相关内容