基于字符串提取字段（部分和精确）

Question 1

使用 GNU awk 作为第三个参数 to match()、\<字边界和\s/\S简写：

$ awk -v OFS='\t' 'match($0,/(\<DP4=\S+).*\s(\S+\tMODERATE\t\S+)/,a){print a[1], a[2]}' file
DP4=30,13,22,16 missense_variant        MODERATE        ABCB6

Answer

使用 GNU awk 作为第三个参数 to match()、\<字边界和\s/\S简写：

$ awk -v OFS='\t' 'match($0,/(\<DP4=\S+).*\s(\S+\tMODERATE\t\S+)/,a){print a[1], a[2]}' file
DP4=30,13,22,16 missense_variant        MODERATE        ABCB6

Question 2

awk 'BEGIN{ OFS="\t" } {
    nrf=split($0, tmp); s1=s2=0;
    for(i=1; i<=nrf; i++){
        printf "%s", (tmp[i] ~/DP4=/     &&++s1? (s2?OFS:"") tmp[i]:
                     (tmp[i]=="MODERATE" &&++s2? (s1?OFS:"") tmp[i-1] OFS tmp[i] OFS tmp[i+1]:"") );
    }; print "";
}' infile

我们用了split() 函数每次将当前处理行拆分到一个名为的临时数组tmp在默认 FS 上（空格，即制表符/空格）；这nrf只是我使用的一个临时变量，它保存 split() 函数分割的字段数。

然后我们对这些字段使用 for-look，并检查当前读取的字段是否tmp[i]满足您期望的条件，如果是，则打印，否则我们将检查下一个条件，如果看到了，则将前一个字段打印到其中tmp[i-1]然后是当前字段本身，tmp[i]然后是它的右侧下一个字段tmp[i+1]，否则我们打印空字符串""。

临时变量s1和s2用于控制第一个和第二个打印条件操作之间的字段分隔符，因此如果在下一个字段之前找到一个字段，则应提前打印 OFS before。

Answer

awk 'BEGIN{ OFS="\t" } {
    nrf=split($0, tmp); s1=s2=0;
    for(i=1; i<=nrf; i++){
        printf "%s", (tmp[i] ~/DP4=/     &&++s1? (s2?OFS:"") tmp[i]:
                     (tmp[i]=="MODERATE" &&++s2? (s1?OFS:"") tmp[i-1] OFS tmp[i] OFS tmp[i+1]:"") );
    }; print "";
}' infile

我们用了split() 函数每次将当前处理行拆分到一个名为的临时数组tmp在默认 FS 上（空格，即制表符/空格）；这nrf只是我使用的一个临时变量，它保存 split() 函数分割的字段数。

然后我们对这些字段使用 for-look，并检查当前读取的字段是否tmp[i]满足您期望的条件，如果是，则打印，否则我们将检查下一个条件，如果看到了，则将前一个字段打印到其中tmp[i-1]然后是当前字段本身，tmp[i]然后是它的右侧下一个字段tmp[i+1]，否则我们打印空字符串""。

临时变量s1和s2用于控制第一个和第二个打印条件操作之间的字段分隔符，因此如果在下一个字段之前找到一个字段，则应提前打印 OFS before。

基于字符串提取字段（部分和精确）

答案1

答案2

相关内容