使用 sed 删除多个字符串

使用 sed 删除多个字符串

我有一个非常大的文件,需要从中删除多行。它看起来像:

CAM_READ_0623233309 /library_id=CAM_LIB_002149 /sample_id=CAM_SMPL_003380 raw_id=G9ALM7U02F5HAW length=383 /IP_notice=?从 CAMERA 下载的此遗传信息可视为丹麦遗传遗产的一部分,丹麦是获取此样本的国家。此信息的用户同意:1) 在任何提供遗传信息的国家承认丹麦为原产国,2) 联系 CBD 网站上确定的 CBD 联络点 (http://www.cbd.int/国家/)如果他们打算将这些基因信息用于商业目的?TGT ...

我的输出应该是这样的

CAM_READ_0623233309 TGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGT

以下 sed 命令是否有效?sed -i "//library_id=CAM_LIB_\d{6} /sample_id=CAM_SMPL_\d{6} raw_id=G\d{1}[AZ]{3}\d{1}[AZ]{1}\d{2}[AZ]{1}\d{1}[AZ]{3} length=\d{3} /IP_notice=\?从 CAMERA 下载的此遗传信息可视为丹麦遗传遗产的一部分,丹麦是获取样本的国家。此信息的用户同意:1) 在任何提供遗传信息的国家承认丹麦为原产国;2) 如果打算将遗传信息用于商业目的,请联系 CBD 网站 (http://www.cbd.int/countries/) 上确定的 CBD 联络点。\?/d' g1.fa

答案1

考虑到您的输入只有一行长行,并且您想要获取第一个和最后一个项目,我们可以使用awk来做到这一点。该命令如下:

awk '{printf $1"\n"$NF"\n"}' data.txt

示例输出:

$> cat data.txt                                                                                                          
CAM_READ_0623233309 /library_id=CAM_LIB_002149 /sample_id=CAM_SMPL_003380 raw_id=G9ALM7U02F5HAW length=383 /IP_notice=?This genetic information downloaded from CAMERA may be considered to be part of the genetic patrimony of Denmark, the country from which the sample was obtained. Users of this information agree to: 1) acknowledge Denmark as the country of origin in any country where the genetic information is presented and 2) contact the CBD focal point identified on the CBD website (http://www.cbd.int/countries/) if they intend to use the genetic information for commercial purposes.? TGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGT
$> awk '{printf $1"\n"$NF"\n"}' data.txt                                                                                     
CAM_READ_0623233309
TGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGT
$> 

相关内容