提取某个字符串，搜索并替换或保留包含提取值的较长字符串

Question 1

你能行的：

cat gene_map_table_fb_2014_01_short.tsv  |sed '1d' |awk {'print $2'} |awk 'BEGIN{FS=":"} {print $2}' |sed s/._//g

首先cat你的文件，然后删除第一行（带有d1的列标题），然后打印所有列，然后4_FBgn0035847用分隔awk 'BEGIN{FS=":"} {print $2}'然后number_用消除sed s/._//g

输出是：

FBgn0035847
FBgn0032515
FBgn0266486
1FBgn0031359
1FBgn0031359
1FBgn0031359
CR31143

但是，如果您的结束行是多余的并且您想删除它，您可以这样做：

cat gene_map_table_fb_2014_01_short.tsv  |sed '1d' |awk {'print $2'} |awk 'BEGIN{FS=":"} {print $2}' |sed s/._//g |sed '$d'

所以，输出是：

FBgn0035847
FBgn0032515
FBgn0266486
1FBgn0031359
1FBgn0031359
1FBgn0031359

Answer

你能行的：

cat gene_map_table_fb_2014_01_short.tsv  |sed '1d' |awk {'print $2'} |awk 'BEGIN{FS=":"} {print $2}' |sed s/._//g

首先cat你的文件，然后删除第一行（带有d1的列标题），然后打印所有列，然后4_FBgn0035847用分隔awk 'BEGIN{FS=":"} {print $2}'然后number_用消除sed s/._//g

输出是：

FBgn0035847
FBgn0032515
FBgn0266486
1FBgn0031359
1FBgn0031359
1FBgn0031359
CR31143

但是，如果您的结束行是多余的并且您想删除它，您可以这样做：

cat gene_map_table_fb_2014_01_short.tsv  |sed '1d' |awk {'print $2'} |awk 'BEGIN{FS=":"} {print $2}' |sed s/._//g |sed '$d'

所以，输出是：

FBgn0035847
FBgn0032515
FBgn0266486
1FBgn0031359
1FBgn0031359
1FBgn0031359

Question 2

使用`awk`

这将创建制表符分隔的输出：

$ awk -v OFS="\t" 'NR==FNR{a[$1]=$2;next} FNR==1{print;next} {sub(/intron_/, "", $2); sub(/:.*/,"",$2);if ($2 in a) $2=a[$2];print}' gene_map_table_fb_2014_01_short.tsv HC25_LNv_ZT02_intron_results.txt
bundle_id   target_id   length  eff_length  tot_counts  uniq_counts est_counts  eff_counts  ambig_distr_alpha   ambig_distr_beta    fpkm    fpkm_conf_low   fpkm_conf_high  solvable    tpm
1       mthl7   61      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
2       loqs    72      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
3       CG45085 58      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
536     CR31143 40      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00

解释：

-v OFS="\t"

这使得输出字段分隔符变成一个选项卡。
NR==FNR{a[$1]=$2;next}

a这将根据命令行上的第一个文件创建一个关联数组，其中第一列作为键，第二列作为值。该next命令指示awk跳过其余命令并跳转到下一行。

映射文件包含一些注释行。我们可以轻松地添加一个额外的if语句来防止它们被添加到数组中a。然而，由于它们没有害处，所以我们跳过了这个复杂的问题。
FNR==1{print;next}

这将打印标题行不变。
{sub(/intron_/, "", $2); sub(/:.*/,"",$2)

这会删除第二个字段中的多余内容，只留下我们想要的字符串。
`如果（a 中的 $2）$2=a[$2]

如果第二个字段中的字符串作为 array 中的键存在a，那么我们将替换其相应的值。
print

修改后的行被打印出来。

使用`bash`

在脚本中，替换

if [ ! -z "$key" ]

和：

if [[ "$key" && "${map[$key]}" ]]

此时脚本似乎需要知道的是是否key存在于map。修订后的测试不仅确保它key非空，而且确保它位于中map。

经过这一更改，我得到了输出：

$ cat temptemp.txt 
bundle_id   target_id   length  eff_length  tot_counts  uniq_counts est_counts  eff_counts  ambig_distr_alpha   ambig_distr_beta    fpkm    fpkm_conf_low   fpkm_conf_high  solvable    tpm
1       mthl7   61      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
2       loqs    72      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
3       CG45085 58      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
536     CR31143 40      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00

作为旁白text，如果非空则[ ! -z "$key" ]返回 true 。key这相当于[ -n "$key" ].由于这是一个常见的测试，因此可以进一步缩短为[ "$key" ]。这可用于简化bash脚本中的几行。

Answer

使用`awk`

这将创建制表符分隔的输出：

$ awk -v OFS="\t" 'NR==FNR{a[$1]=$2;next} FNR==1{print;next} {sub(/intron_/, "", $2); sub(/:.*/,"",$2);if ($2 in a) $2=a[$2];print}' gene_map_table_fb_2014_01_short.tsv HC25_LNv_ZT02_intron_results.txt
bundle_id   target_id   length  eff_length  tot_counts  uniq_counts est_counts  eff_counts  ambig_distr_alpha   ambig_distr_beta    fpkm    fpkm_conf_low   fpkm_conf_high  solvable    tpm
1       mthl7   61      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
2       loqs    72      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
3       CG45085 58      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
536     CR31143 40      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00

解释：

-v OFS="\t"

这使得输出字段分隔符变成一个选项卡。
NR==FNR{a[$1]=$2;next}

a这将根据命令行上的第一个文件创建一个关联数组，其中第一列作为键，第二列作为值。该next命令指示awk跳过其余命令并跳转到下一行。

映射文件包含一些注释行。我们可以轻松地添加一个额外的if语句来防止它们被添加到数组中a。然而，由于它们没有害处，所以我们跳过了这个复杂的问题。
FNR==1{print;next}

这将打印标题行不变。
{sub(/intron_/, "", $2); sub(/:.*/,"",$2)

这会删除第二个字段中的多余内容，只留下我们想要的字符串。
`如果（a 中的 $2）$2=a[$2]

如果第二个字段中的字符串作为 array 中的键存在a，那么我们将替换其相应的值。
print

修改后的行被打印出来。

使用`bash`

在脚本中，替换

if [ ! -z "$key" ]

和：

if [[ "$key" && "${map[$key]}" ]]

此时脚本似乎需要知道的是是否key存在于map。修订后的测试不仅确保它key非空，而且确保它位于中map。

经过这一更改，我得到了输出：

$ cat temptemp.txt 
bundle_id   target_id   length  eff_length  tot_counts  uniq_counts est_counts  eff_counts  ambig_distr_alpha   ambig_distr_beta    fpkm    fpkm_conf_low   fpkm_conf_high  solvable    tpm
1       mthl7   61      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
2       loqs    72      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
3       CG45085 58      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
536     CR31143 40      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00

作为旁白text，如果非空则[ ! -z "$key" ]返回 true 。key这相当于[ -n "$key" ].由于这是一个常见的测试，因此可以进一步缩短为[ "$key" ]。这可用于简化bash脚本中的几行。

提取某个字符串，搜索并替换或保留包含提取值的较长字符串

答案1

答案2

使用`awk`

使用`bash`

相关内容

答案1

答案2

使用awk

使用bash

相关内容

使用`awk`

使用`bash`