从文本文件中提取与标题子字符串匹配的列

从文本文件中提取与标题子字符串匹配的列

我想从文本文件“columns.txt”中提取制表符分隔的列,其中标题(第一行)与另一个文本文件“string”中列出的子字符串匹配。
“columns.txt”看起来像这样:

A   B   C   D   E   F   rs243_A   rs546_G   rs987_T   rs025_C   ...
A   B   C   D   E   F   0         0         0         1         ...
A   B   C   D   E   F   1         1         2         2         ...
A   B   C   D   E   F   0         1         2         0         ...
... ... ... ... ... ... ...       ...       ...       ...       ...

“strings.txt”看起来像这样:

rs243
rs987  
...

输出文本文件应复制“columns.txt”中的第 1-6 列,然后添加“strings.txt”中指定的所有提取的列(制表符分隔)。输出文件“output.txt”应如下所示:

A   B   C   D   E   F   rs243   rs987   ...
A   B   C   D   E   F   0       0       ...
A   B   C   D   E   F   1       2       ...
A   B   C   D   E   F   0       2       ...
... ... ... ... ... ... ...     ...     ...

我使用的代码将第 1-6 列打印到“output.txt”,但不添加提取的列:

awk -F '\t' -f /data/p_00614/ABCD/scripts/extract.awk /data/strings.txt /data/columns.txt > /data/output.txt

与“extract.awk”:

BEGIN { OFS = FS }

FNR == NR {
    sub("_.*", "", $1)
    columns[$1] = 1
    next
}

FNR == 1 {
    for (i = 1; i <= NF; ++i)
        if (i <= 6 || $i in columns)
            keep[i] = 1
}

{
    nf = split($0, fields, FS)
    $0 = ""
    j = 0

    for (i = 1; i <= nf; ++i)
        if (i in keep)
            $(++j) = fields[i]

    print 
}

我觉得

sub("_.*", "", $1)

不起作用。"_.*"可能不会切割从开始的每个子字符串_,而只是精确匹配。对于如何解决这个问题,有任何的建议吗?谢谢你!

答案1

这是我提供的代码中的一个错误对您的一个问题的较早回答(现已更正)。该_.*位不应从正在读取的字符串中删除strings.txt,而应从正在读取的数据中删除columns.txt

更正的脚本:

BEGIN { OFS = FS }

FNR == NR {
    columns[$1] = 1
    next
}

FNR == 1 {
    for (i = 1; i <= NF; ++i) {
        sub("_.*", "", $i)
        if (i <= 6 || $i in columns)
            keep[i] = 1
    }
}

{
    nf = split($0, fields, FS)
    $0 = ""
    j = 0

    for (i = 1; i <= nf; ++i)
        if (i in keep)
            $(++j) = fields[i]

    print 
}

请注意问题中的FNR == NR和块的细微变化。FNR == 1

相关内容