awk/sed 将集群文件拆分为多个文件

Question 1

awk '/^>/ && NF==1 {close(out); out="file_"++n; next} {print > out}' file

根据您的测试输入，您要更改输出文件的标头定义为：以一个字段开头>且只有一个字段的行。使用next我们对此行不打印任何内容，但设置输出文件名。此外，close()调用还可确保我们不会打开太多文件，否则awk可能会引发错误。

输出：

$ head file_*
==> file_1 <==
>1AB2 AA
NWWIEUNJRNIBGOWNGIOWGRBIGBRGRIOWGI
NCIDHFR8EHGBVPIWOBGIGRI
>1AB3 AA
WNIOREHUEBRGOUERGHBERGIORBGREUGEGO
NWFWRUBGREOUEREOBRIOBNERIOBN
>1SC4 AA
WNIOREHUEBRGOUERGHBERGIORBGREUGEGO
NWFWRUBGREOUEREOBRIOBNERIOBN
>2CD5 AA

==> file_2 <==
>2AC6 AA
NFIGEURHGEIROHEGHTUTJGENLJBBEOWRIU
NFIROUHBOERVERUGBERUOVREOIBROEBVUE
NVHIRE
>2ONM AA
BUCIEHBUORBREOBWQVURVELLAJFLHIEBGR
NHEIBVEURIGBVNRIHEOEAJVSJDNHVUGBVR
NEBIBVVBRU
>2POD AA
BUFEWIBOEUWBWOREBRIUBGUERIGBVOSRIP

==> file_3 <==
>7KZL AA
BUIREBVAUREVBREOIRGPNJBFDVERUBVROR

==> file_4 <==
>6GH3 AA
NBVUIREVOIAWRHRUGRTYUVDNJKDFHUGSEI
FHUIERBLUUIREB
>6GH4 AA
BDFUIGEVUERERHOBERIHBSDLKFJBNIERIH
NFHILRUGAURHG
thanasis@basis:~/Documents/development/temp> 
```

Answer

awk '/^>/ && NF==1 {close(out); out="file_"++n; next} {print > out}' file

根据您的测试输入，您要更改输出文件的标头定义为：以一个字段开头>且只有一个字段的行。使用next我们对此行不打印任何内容，但设置输出文件名。此外，close()调用还可确保我们不会打开太多文件，否则awk可能会引发错误。

输出：

$ head file_*
==> file_1 <==
>1AB2 AA
NWWIEUNJRNIBGOWNGIOWGRBIGBRGRIOWGI
NCIDHFR8EHGBVPIWOBGIGRI
>1AB3 AA
WNIOREHUEBRGOUERGHBERGIORBGREUGEGO
NWFWRUBGREOUEREOBRIOBNERIOBN
>1SC4 AA
WNIOREHUEBRGOUERGHBERGIORBGREUGEGO
NWFWRUBGREOUEREOBRIOBNERIOBN
>2CD5 AA

==> file_2 <==
>2AC6 AA
NFIGEURHGEIROHEGHTUTJGENLJBBEOWRIU
NFIROUHBOERVERUGBERUOVREOIBROEBVUE
NVHIRE
>2ONM AA
BUCIEHBUORBREOBWQVURVELLAJFLHIEBGR
NHEIBVEURIGBVNRIHEOEAJVSJDNHVUGBVR
NEBIBVVBRU
>2POD AA
BUFEWIBOEUWBWOREBRIUBGUERIGBVOSRIP

==> file_3 <==
>7KZL AA
BUIREBVAUREVBREOIRGPNJBFDVERUBVROR

==> file_4 <==
>6GH3 AA
NBVUIREVOIAWRHRUGRTYUVDNJKDFHUGSEI
FHUIERBLUUIREB
>6GH4 AA
BDFUIGEVUERERHOBERIHBSDLKFJBNIERIH
NFHILRUGAURHG
thanasis@basis:~/Documents/development/temp> 
```

Question 2

您可以使用csplit：

csplit --prefix file_ --elide-empty-files --suppress-matched file '/^>....$/' '{*}'

它创建 4 个文件，file_00以_03您需要的内容命名。

Answer

您可以使用csplit：

csplit --prefix file_ --elide-empty-files --suppress-matched file '/^>....$/' '{*}'

它创建 4 个文件，file_00以_03您需要的内容命名。

Question 3

使用awk+sed组合：

awk -v f="wfile_" '
/^>/ && length==5 {
  if (a++) print p, ",", NR-1, f a-1
  p=NR+1
}
END {print p, ",$" f a}' < file |
split -l 10
for f in x*; do
sed -nf "$f" file
done

我们使用 awk 来确定块启动器的行号/^>.{4}$/，然后构建适当的 sed 代码

Answer

使用awk+sed组合：

awk -v f="wfile_" '
/^>/ && length==5 {
  if (a++) print p, ",", NR-1, f a-1
  p=NR+1
}
END {print p, ",$" f a}' < file |
split -l 10
for f in x*; do
sed -nf "$f" file
done

我们使用 awk 来确定块启动器的行号/^>.{4}$/，然后构建适当的 sed 代码

awk/sed 将集群文件拆分为多个文件

答案1

答案2

答案3

相关内容