awk 输出管道作为循环中的参数

Question 1

EnsEMBL 的变异效应预测器默认从标准输入读取（文档在这里）。

这意味着-i完全忽略该选项（及其选项参数）将使其从管道读取输入。

我不确定您想在管道中做什么，但看起来好像您正在尝试用其他标识符替换某些标识符，从单独的文件中读取。这样做时，您使用的awk程序中含有无用的反斜杠。该awk命令可以写为

awk 'BEGIN { FS=OFS="\t" } NR == FNR { key[$1]=$2; next} ($1 in key) { $1=key[$1] } 1' map -

输入-文件名awk在到达它时从其标准输入中读取（在处理名为的文件之后map）。

awk是一种比您的管道所赋予的更强大的语言，您可以轻松地将cut和sed代码合并到其中：

awk 'BEGIN { FS=OFS="\t" } NR == FNR { key[$1]=$2; next} ($1 in key) { $1=key[$1] } FNR > 6 { print $1, $2, $3, $4, $5, $6 }' map -

你的脚本可能看起来像

#!/bin/sh

for file in ./*.vcf.gz; do
    gzip -cd "$file" |
    awk 'BEGIN { FS=OFS="\t" } NR == FNR { key[$1]=$2; next} ($1 in key) { $1=key[$1] } FNR > 6 { print $1, $2, $3, $4, $5, $6 }' map - |
    vep -o "${file}_dnds" --compress_output gzip --dir_cache ./ 
done

（另请注意变量扩展的正确双引号）

您是否希望在附加到输出文件末尾.vcf.gz之前从输出文件名中删除文件名后缀，请使用._dndsvep -o "${file%.vcf.gz}_dnds" ...

Answer

EnsEMBL 的变异效应预测器默认从标准输入读取（文档在这里）。