将网页内容保存在文本文件中

将网页内容保存在文本文件中

我有以下网页链接:

http://www.rcsb.org/pdb/explore/sequenceText.do?structureId=1APS&chainId=A

我希望仅将此文件的某些部分保存在文本文件中,也就是说,我只想要序列部分(在正确的位置有空格),而不是该页面上的标题或任何数字。

其次,我们可以看到所有行中每第十个字符后都有空格。我想仅删除每第十个字符后出现的空格,并将此内容保存在另一个文本文件中。

有可能吗?有人能在这方面提供帮助吗?

答案1

您可以将 egrep 与 -o 开关一起使用(仅显示与 PATTERN 匹配的匹配行的部分。)例如:echo page.html | egrep -o ".+" | sed s!!! | sed s!! > output.txt

相关内容