我需要为每个唯一 ID ($1) 打印记录的最大值和最小值 ($3) 之间的差值。
数据文件
Id str mt no
101 2 550 1
101 3 540 2
101 3 350 3
101 4 600 4
101 4 700 5
102 1 400 1
102 4 500 2
102 4 350 3
102 3 550 4
103 3 500 1
103 4 300 2
103 3 550 3
输出
Id str mt no diff
101 2 550 1 350
101 3 540 2 350
101 3 350 3 350
101 4 600 4 350
101 4 700 5 350
102 1 400 1 200
102 4 500 2 200
102 4 350 3 200
102 3 550 4 200
103 3 500 1 250
103 4 300 2 250
103 3 550 3 250
答案1
awk使用多维数组的方法和分类功能:
awk 'NR==1{ h=$0; } NR>1 { b[NR]=$0;a[$1][length(a[$1])+1]=$3; }
END { print h,"diff";
for (i in a) { asort(a[i]) }
for (k=2;k<=NR;k++) {
split(b[k],sep); max=length(a[sep[1]]);
print b[k],a[sep[1]][max] - a[sep[1]][1]
}
}' file
输出:
Id str mt no diff
101 2 550 1 350
101 3 540 2 350
101 3 350 3 350
101 4 600 4 350
101 4 700 5 350
102 1 400 1 200
102 4 500 2 200
102 4 350 3 200
102 3 550 4 200
103 3 500 1 250
103 4 300 2 250
103 3 550 3 250
答案2
这是一个“教学”版本:
awk '
NR == 1 {
header=$0
}
NR > 1 {
line[NR]=$0
if($4==1) {
min[$1]=max[$1]=$3
}
else {
if(min[$1]>$3) min[$1]=$3
if(max[$1]<$3) max[$1]=$3
}
}
END {
printf("%s diff\n",header)
for(i=2;i<=NR;i++) {
split(line[i],e)
printf("%s %d\n",line[i],max[e[1]]-min[e[1]])
}
}
' datafile > output
假设 id 列保证是有序的,这是一个更快的版本,而且使用的内存也少得多:
awk 'function f() {for(i in r) printf("%s %d\n",r[i],u-l); delete r}
NR == 1 {printf("%s diff\n",$0)}
NR > 1 {if($4==1) {f(); l=u=$3}
else {if(l>$3)l=$3; if(u<$3)u=$3}
r[$4]=$0 }
END {f()}
' datafile > output
这两个脚本都会生成请求的输出并与 POSIX 兼容的 awk 实现一起使用,即不需要 GNU awk 扩展,例如asort
.
答案3
perl -lane '
push @A, $_; next if $. == 1; ($a, $b) = @F[0,2];
$b > ($M{$a} // -Inf) and $M{$a} = $b;
$b < ($m{$a} // +Inf) and $m{$a} = $b;
END{$,=$";
print shift @A, q/diff/;
($a) = /\d+/g, print $_, $M{$a} - $m{$a} for @A;
}
' datafile
结果:
Id str mt no diff
101 2 550 1 350
101 3 540 2 350
101 3 350 3 350
101 4 600 4 350
101 4 700 5 350
102 1 400 1 200
102 4 500 2 200
102 4 350 3 200
102 3 550 4 200
103 3 500 1 250
103 4 300 2 250
103 3 550 3 250
答案4
这是一个两遍解决方案
awk -f runawk first_pass=1 file first_pass=0 file
其中的内容runawk
是
FNR == 1 && /^Id/{
if (!first_pass) print
next
}
first_pass{
if (!($1 in max)){
min[$1] = max[$1] = $3
next
}
max[$1] = $3 > max[$1]? $3: max[$1]
min[$1] = $3 < min[$1]? $3: min[$1]
}
!(first_pass){
print $1, $2, $3, max[$1] - min[$1]
}