我寻求帮助来解决一个我试图自己解决但没有成功的问题。不久,我需要处理非常大的表格数据文件,其结构如下:
14 R
16 I
21 B
22 C
23 Q
24 E
33 R
34 L
41 K
62 F
63 F
64 M
88 B
等等...我试图对这些排序的升序数据执行的操作是整理第二列中与第一列中三个或更多连续术语的块相对应的项目。因此,上述数据的预期输出应该是:
21-24 BCQE
82-64 FFM
到目前为止我最终得到的代码是:
prev=0
val=$(prev + 1)
while read -r n a ; do
if [[ ${n} == ${val} ]]
t="$( "$a" + ( "$(a - 1)" ) )" ; then
echo "$t"
fi
prev=$n
done < table
但不起作用。
答案1
解决方案awk
:
awk '{if(p+1==$1){c+=1}else{ if(c>1){printf "%s-%s %s\n", b, p, s;} c=0;s=""}} c==1{b=p} {p=$1;s=s$2}' file
这次带有解释,更具可读性:
awk '{
if(p+1==$1){
c+=1 # increment the counter if the value is consecutive
} else {
if(c>1){
# print the begin and end values with the concatenated string
printf "%s-%s %s\n", b, p, s;
}
c=0 # reset the counter
s="" # reset the string to print
}
}
c==1{b=p} # set the begin value
{p=$1;s=s$2} # set the previous variable and the string for the next loop
' file
使用 GNU 进行测试awk
并mawk
答案2
使用awk
:
$ awk 'function out() { if (start != "") { if (start == prev) printf("%s\t%s\n", prev, string); else printf("%s-%s\t%s\n", start, prev, string) } } $1 != prev + 1 { out(); start = $1; string = "" } { prev = $1; string = string $2 } END { out() }' file
14 R
16 I
21-24 BCQE
33-34 RL
41 K
62-64 FFM
88 B
该awk
程序:
function out() {
if (start != "") {
if (start == prev)
printf("%s\t%s\n", prev, string)
else
printf("%s-%s\t%s\n", start, prev, string)
}
}
$1 != prev + 1 { out(); start = $1; string = "" }
{ prev = $1; string = string $2 }
END { out() }
该程序跟踪 中第一列的前一个数字prev
以及 中第二列的串联string
。当先前的第一列比当前的第一列少一时,发生的所有事情都是prev
和string
被更新。
当编号中存在“间隙”时,out()
调用 来输出收集的数据以及记录的间隔。该函数也会在输入结束时调用。
shell的逐字等效内容sh
:
out () {
if [ -n "$start" ]; then
if [ "$start" = "$prev" ]; then
printf '%s\t%s\n' "$prev" "$string"
else
printf '%s-%s\t%s\n' "$start" "$prev" "$string"
fi
fi
}
while read -r num str; do
if [ "$num" -ne "$(( prev + 1 ))" ]; then
out
start=$num
string=""
fi
prev=$num
string=$string$str
done <file
out
我只是注意到即使只有两行在数字上相互跟随,这也会结合起来。我稍后可能会更正这一点,但我现在将其留在这里。
答案3
正如其他地方所指出的,bash 可能不是完成这项工作的最佳工具,在 Perl 或 awk 中执行此操作可能更容易。即使是这样:
#! /bin/bash
print() {
# "${array[*]}" joins the elements with the first characters of IFS as separator
# so we set IFS to the empty string so that the elements are simply concatenated
local IFS=
if (( end - start > 1 )) # more than two consecutive numbers, concatenate
then
printf "%s-%s\t%s\n" "$start" "$end" "${chars[*]}"
elif (( start == end )) # single number, nothing special
then
printf "%s\t%s\n" "$start" "${chars[0]}"
elif (( end - start == 1 )) # two consecutive numbers, print separately
then
printf "%s\t%s\n" "$start" "${chars[0]}" "$end" "${chars[1]}"
fi
}
# An initial read
read -r n a
chars=( "$a" )
start=$n
end=$n
while read -r n a
do
if (( n - end == 1 )) # consecutive numbers, store for printing
then
chars+=( "$a" )
end=$n
continue # move to next line
fi
print # Break in numbers, print stored set
chars=( "$a" ) # reset variables
start=$n
end=$n
done
print # print last set
如果您不需要其他行,可以删除函数elif
中的块print
。
输出示例:
14 R
16 I
21-24 BCQE
33 R
34 L
41 K
62-64 FFM
88 B