仅保留遵循特定模式的行

2024-5-27 • tag-icon

我有一个包含 550 万行的文件。

例子：

chr1    10000   10468   +   (TAACCC)n   Simple_repeat   Simple_repeat
chr1    10468   11447   -   TAR1    Satellite   telo
chr1    11504   11675   -   L1MC5a  LINE    L1
chr1    11677   11780   -   MER5B   DNA hAT-Charlie
chr10_GL383545v1_alt    11877   11980   -   Alu ERV1
chr11_BL383595v1_alt    12077   12980   -   Alu ERV1
chr3    11504   11675   -   L1MC5a  LINE    L1

_我有兴趣只保留第一列中没有的行

输出将类似于：

chr1    10000   10468   +   (TAACCC)n   Simple_repeat   Simple_repeat
chr1    10468   11447   -   TAR1    Satellite   telo
chr1    11504   11675   -   L1MC5a  LINE    L1
chr1    11677   11780   -   MER5B   DNA hAT-Charlie
chr3    11504   11675   -   L1MC5a  LINE    L1

我不知道存在多少不需要的行。我更愿意使用，awk但普通的 bash 命令也可以。

答案1

awk最适合处理列

awk '$1 !~ /_/' file

!~允许检查某些内容是否与模式不匹配

和grep

grep -v '^\S*_' file

或者，如果\S无法识别，

grep -v '^[^[:space:]]*_' file

答案1

相关内容