删除一列中的重复条目并将多行中的值线性化为单行

Question 1

简单地与awk：

awk '{ r=$0; sub($1,"",r); a[$1]=(a[$1])? a[$1]"\t"r : r }
     END{ for(i in a) { gsub(/[[:space:]]{2,}/," ",a[i]); print i,a[i] } }' file

r=$0- 捕获记录的副本
sub($1,"",r)- 删除副本中的第一个字段以将剩余字段存储在r变量中
a[$1]=(a[$1])? a[$1]"\t"r : r- 累积相同的值团体（由第1场提出）
for(i in a)- 迭代所有分组的项目
gsub(/[[:space:]]{2,}/," ",a[i])- 删除单词之间过多的空格
print i,a[i]- 打印组名称及其值

输出：

DAPPUDRAFT_194440  Phosphorous Temperature 
DAPPUDRAFT_196694  Salinity
DAPPUDRAFT_194512  Fishkairomones Cadmium Zinc Quantumdots
DAPPUDRAFT_194472  Phosphorous Fishkairomones Temperature 
DAPPUDRAFT_196131  Salinity Phosphorous hypoxia 
DAPPUDRAFT_195644  Salinity Phosphorous

Answer

简单地与awk：

awk '{ r=$0; sub($1,"",r); a[$1]=(a[$1])? a[$1]"\t"r : r }
     END{ for(i in a) { gsub(/[[:space:]]{2,}/," ",a[i]); print i,a[i] } }' file

r=$0- 捕获记录的副本
sub($1,"",r)- 删除副本中的第一个字段以将剩余字段存储在r变量中
a[$1]=(a[$1])? a[$1]"\t"r : r- 累积相同的值团体（由第1场提出）
for(i in a)- 迭代所有分组的项目
gsub(/[[:space:]]{2,}/," ",a[i])- 删除单词之间过多的空格
print i,a[i]- 打印组名称及其值

输出：

DAPPUDRAFT_194440  Phosphorous Temperature 
DAPPUDRAFT_196694  Salinity
DAPPUDRAFT_194512  Fishkairomones Cadmium Zinc Quantumdots
DAPPUDRAFT_194472  Phosphorous Fishkairomones Temperature 
DAPPUDRAFT_196131  Salinity Phosphorous hypoxia 
DAPPUDRAFT_195644  Salinity Phosphorous

Question 2

或者

$ perl -e 'while(<ARGV>){chomp;($x,$y)=split(/\s+/,$_,2);$hash{$x}.=$y;}for(keys %hash){print "$_ $hash{$_}\n";}' test1
DAPPUDRAFT_196694 Salinity
DAPPUDRAFT_194440 Phosphorous     Temperature
DAPPUDRAFT_195644 Salinity        Phosphorous
DAPPUDRAFT_194472 Phosphorous Fishkairomones  Temperature
DAPPUDRAFT_194512 Fishkairomones      Cadmium Zinc    Quantumdots
DAPPUDRAFT_196131 Salinity        Phosphorous     hypoxia

Answer

或者

$ perl -e 'while(<ARGV>){chomp;($x,$y)=split(/\s+/,$_,2);$hash{$x}.=$y;}for(keys %hash){print "$_ $hash{$_}\n";}' test1
DAPPUDRAFT_196694 Salinity
DAPPUDRAFT_194440 Phosphorous     Temperature
DAPPUDRAFT_195644 Salinity        Phosphorous
DAPPUDRAFT_194472 Phosphorous Fishkairomones  Temperature
DAPPUDRAFT_194512 Fishkairomones      Cadmium Zinc    Quantumdots
DAPPUDRAFT_196131 Salinity        Phosphorous     hypoxia

Question 3

如果您不关心行和元素的排序方式：

sed 'G;s/^\(.*\)\(\t.*\)\n\(.*\)\1/\3\1\2/;h;$!d;s/\n$//' file

对于非 GNU，sed将替换\t为文字 TAB。

Answer

如果您不关心行和元素的排序方式：

sed 'G;s/^\(.*\)\(\t.*\)\n\(.*\)\1/\3\1\2/;h;$!d;s/\n$//' file

对于非 GNU，sed将替换\t为文字 TAB。

删除一列中的重复条目并将多行中的值线性化为单行

答案1

答案2

答案3

相关内容