我有以下网页链接:
http://www.rcsb.org/pdb/explore/sequenceText.do?structureId=1APS&chainId=A
我希望仅将此文件的某些部分保存在文本文件中,也就是说,我只想要序列部分(在正确的位置有空格),而不是该页面上的标题或任何数字。
其次,我们可以看到所有行中每第十个字符后都有空格。我想仅删除每第十个字符后出现的空格,并将此内容保存在另一个文本文件中。
有可能吗?有人能在这方面提供帮助吗?
答案1
您可以将 egrep 与 -o 开关一起使用(仅显示与 PATTERN 匹配的匹配行的部分。)例如:echo page.html | egrep -o ".+" | sed s!!! | sed s!! > output.txt