请注意,我知道datamash
并且是一位经验丰富的awk
用户。我正在寻找比awk
.假设我有以下内容:
// data_file
foo bar biz
10 100 1000
11 150 990
10 95 1010
9 99 950
// usage goal, in pseudo code
cat data_file | <tool> --ratio foo,bar --ratio foo,biz --ratio bar,biz
// desired output
foo bar biz foo_bar foo_biz bar_biz
10 100 1000 0.1 0.01 0.1
11 150 990 0.073 0.011 0.1515
10 95 1010 0.105 0.0099 0.094
9 99 950 0.09 0.0095 0.1042
为了获得这个接口,我将用 C++ 构建一些简单的东西。
在此之前,Unix 中是否有一个直接的解决方案?
答案1
使用米勒(https://github.com/johnkerl/miller)并运行
mlr --pprint put '$foo_bar=$foo/$bar;$foo_biz=$foo/$biz;$bar_biz=$bar/$biz' input >output
你有
foo bar biz foo_bar foo_biz bar_biz
10 100 1000 0.100000 0.010000 0.100000
11 150 990 0.073333 0.011111 0.151515
10 95 1010 0.105263 0.009901 0.094059
9 99 950 0.090909 0.009474 0.104211
答案2
通过几个 bash 函数,paste
如果您有要使用的文件,bc
则可以非常直接地到达那里:csvtool
div() {
printf "%1.4f\n" $(bc -l <<<"1.0 * $1 / $2")
}
export -f div
ratio() {
echo "$1"_"$2"
csvtool -t ' ' namedcol $1,$2 data.ssv |
tail -n+2 |
csvtool call div -
}
paste -d ' ' <(cat data.ssv) <(ratio foo bar) <(ratio foo biz) <(ratio bar biz) |
csvtool -t ' ' readable -
输出:
foo bar biz foo_bar foo_biz bar_biz
10 100 1000 0.1000 0.0100 0.1000
11 150 990 0.0733 0.0111 0.1515
10 95 1010 0.1053 0.0099 0.0941
9 99 950 0.0909 0.0095 0.1042
如果您确实想以流式传输方式进行操作,那么您最好的选择可能是awk
,例如:
解析.awk
# Parse the requested column ratios into dividend[] and divisor[]
# by column name
BEGIN {
split(ratios_str, ratios, / +/)
for(r in ratios) {
split(ratios[r], cols, /,/)
dividend[++i] = cols[1]
divisor[i] = cols[2]
}
}
# Sort out the header
NR == 1 {
# Create the ColumnName-to-ColumnNumber hash
split($0, a); for(k in a) c2n[a[k]]=k
# Print the header line
printf "%s ", $0
for(i=1; i<=length(dividend); i++)
printf "%s_%s ", dividend[i], divisor[i]
printf "\n"
}
NR > 1 {
printf "%s ", $0
for(i=1; i<=length(dividend); i++)
printf "%1.4f ", $(c2n[dividend[i]]) / $(c2n[divisor[i]])
printf "\n"
}
像这样运行它:
<data.ssv awk -f parse.awk -v ratios_str='foo,bar foo,biz bar,biz' | column -t
输出:
foo bar biz foo_bar foo_biz bar_biz
10 100 1000 0.1000 0.0100 0.1000
11 150 990 0.0733 0.0111 0.1515
10 95 1010 0.1053 0.0099 0.0941
9 99 950 0.0909 0.0095 0.1042