从特定列中提取字符串的一部分

Question 1

如果您有 GNU awk，您可以使用gensub合适的正则表达式进行替换，例如假设所有内容gene_id都是单个制表符分隔的字段 9：

gawk -F '\t' '{$9 = gensub(/.*gene_name "([^"]*)".*/,"\\1","1",$9); print $1,$4,$5,$7,$9}' input
chr1 11869 12227 + DDX11L1
chr1 12010 12057 + DDX11L1

Answer

如果您有 GNU awk，您可以使用gensub合适的正则表达式进行替换，例如假设所有内容gene_id都是单个制表符分隔的字段 9：

gawk -F '\t' '{$9 = gensub(/.*gene_name "([^"]*)".*/,"\\1","1",$9); print $1,$4,$5,$7,$9}' input
chr1 11869 12227 + DDX11L1
chr1 12010 12057 + DDX11L1

Question 2

与多个分隔符一起使用awk。

 awk -F"[\" \t]" '{print $1,$11,$14,$20,$40}' infile.txt

Answer

与多个分隔符一起使用awk。

 awk -F"[\" \t]" '{print $1,$11,$14,$20,$40}' infile.txt

Question 3

awk使用空格作为分隔符。

尝试这个：

$ awk '{print $1, $4, $5, $7, substr($16, 2, 7) }' file
chr1 11869 12227 + DDX11L1
chr1 12010 12057 + DDX11L1

Answer

awk使用空格作为分隔符。

尝试这个：

$ awk '{print $1, $4, $5, $7, substr($16, 2, 7) }' file
chr1 11869 12227 + DDX11L1
chr1 12010 12057 + DDX11L1

从特定列中提取字符串的一部分

答案1

答案2

答案3

相关内容