制表符分隔版本

Question

假设您有空格作为分隔符：

$ while read -r id pos; do awk -v id="$id" -v pos="$pos" '$1 == id && pos > $4 && pos < $5 { print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }' <file2; done <file1
LOC102908761
Rftn1
LOC102913870

解释

while read -r id pos; do FOO; done <file1：这会file1逐行读取，并将第一个字段 (eg NW_006502347.1) 放入 shell 变量中$id，将第二个字段 (eg 316684) 放入 shell 变量中$pos。然后它FOO针对每一行运行。
awk -v id="$id" -v pos="$pos" 'BAR' <file2：对于的每一行file1，我们将运行一个awk将运行的命令BAR。这将搜索file2匹配的零件。我们需要告诉这个awk脚本来自 shell 的两个“外部”变量。即 awk 变量id被赋予与 shell 变量相同的值$id，并且 awk 变量pos和 shell 变量也被赋予相同的值$pos。
$1 == id && pos > $4 && pos < $5：这是脚本的“条件”部分awk。如果满足这些条件，则将运行以下命令。在这里，我们检查的第一个字段是否$1与的当前行中的file2相同，并且是否位于的第四个和第五个字段之间。idfile1pos$4$5file2
{ print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }：如果满足上述条件，则此代码将运行。我们想用first 进行替换gensub。这将搜索后跟gene=任意长度的字母数字字符串([A-Za-z0-9]*)。该字母数字字符串由括号(捕获。)我们还将“搜索”.*完整字符串之前和之后的所有字符gene=([A-Za-z0-9]*)。因此，这将“搜索”整行，并将其替换为（第一个也是唯一的）捕获组"\\1"，即后的字母数字字符串gene=。最终意味着替换第一次出现，尽管这没有多大意义，因为我假设每行1只有一个匹配。gene=

制表符分隔版本

一般来说，我更喜欢使用制表符分隔的文件，特别是对于我假设的 GFF/GTF 文件。这允许区分空格，特别是在第 9 字段中。

while IFS=$'\t' read -r id pos; do awk -F'\t' -v id="$id" -v pos="$pos" '$1 == id && pos > $4 && pos < $5 { print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }' <file2.tsv ; done <file1.tsv

对脚本的修改是显式地拆分带有的选项卡上的 shell 行IFS=$'\t'和awk带有的行-F'\t'。

Answer 1

假设您有空格作为分隔符：

$ while read -r id pos; do awk -v id="$id" -v pos="$pos" '$1 == id && pos > $4 && pos < $5 { print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }' <file2; done <file1
LOC102908761
Rftn1
LOC102913870

解释

while read -r id pos; do FOO; done <file1：这会file1逐行读取，并将第一个字段 (eg NW_006502347.1) 放入 shell 变量中$id，将第二个字段 (eg 316684) 放入 shell 变量中$pos。然后它FOO针对每一行运行。
awk -v id="$id" -v pos="$pos" 'BAR' <file2：对于的每一行file1，我们将运行一个awk将运行的命令BAR。这将搜索file2匹配的零件。我们需要告诉这个awk脚本来自 shell 的两个“外部”变量。即 awk 变量id被赋予与 shell 变量相同的值$id，并且 awk 变量pos和 shell 变量也被赋予相同的值$pos。
$1 == id && pos > $4 && pos < $5：这是脚本的“条件”部分awk。如果满足这些条件，则将运行以下命令。在这里，我们检查的第一个字段是否$1与的当前行中的file2相同，并且是否位于的第四个和第五个字段之间。idfile1pos$4$5file2
{ print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }：如果满足上述条件，则此代码将运行。我们想用first 进行替换gensub。这将搜索后跟gene=任意长度的字母数字字符串([A-Za-z0-9]*)。该字母数字字符串由括号(捕获。)我们还将“搜索”.*完整字符串之前和之后的所有字符gene=([A-Za-z0-9]*)。因此，这将“搜索”整行，并将其替换为（第一个也是唯一的）捕获组"\\1"，即后的字母数字字符串gene=。最终意味着替换第一次出现，尽管这没有多大意义，因为我假设每行1只有一个匹配。gene=

制表符分隔版本

一般来说，我更喜欢使用制表符分隔的文件，特别是对于我假设的 GFF/GTF 文件。这允许区分空格，特别是在第 9 字段中。

while IFS=$'\t' read -r id pos; do awk -F'\t' -v id="$id" -v pos="$pos" '$1 == id && pos > $4 && pos < $5 { print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }' <file2.tsv ; done <file1.tsv

对脚本的修改是显式地拆分带有的选项卡上的 shell 行IFS=$'\t'和awk带有的行-F'\t'。

制表符分隔版本

答案1

解释

制表符分隔版本

相关内容