如何从雅虎管道中的 rss 内容中正则表达式特定链接?

如何从雅虎管道中的 rss 内容中正则表达式特定链接?

我想从 RSS 内容中删除除指定的 href 链接之外的所有内容

例子:

<div class='text'>
<div class="center"> <b><a rel="nofollow" target="_blank" href="http://domain1.com/html/12345948/howto.pdf"></a></b> </div>
</div>
<br>
<div class='text'>
<div class="center"> <b><a rel="nofollow" target="_blank" href="http://www.domain2.com/php/8mgfjghf/file.html">file</a></b>

<b><a rel="nofollow" target="_blank" href="http://www.domain1.com/78/78.html">78</a></b>

<b><a rel="nofollow" target="_blank" href="https://www.domain3.com/5k9f"></a></b> </div>
</div>

我希望我的最终输出如下:

http://domain1.com/html/12345948/howto.pdf
http://www.domain2.com/php/8mgfjghf/file.html
http://www.domain1.com/78/78.html
https://www.domain3.com/5k9f

另外,域名是固定的,这意味着如果存在domain4.net,我不希望它出现在输出中。

答案1

您只需要使用正则表达式吗?这适用于提供的示例:

cat file | grep href | sed 's/.*href=\"//g' | cut -d\" -f1

相关内容