使用 sed 过滤 RSS 项目

Question

正如评论中所建议的那样，我尝试使用它xmlstarlet来解决这个问题，效果很好。这是我的脚本

xml ed -d '//item[not(contains(title,"Project Foo"))]' < sample_rss.xml

假设 feed 内容位于文件中sample_rss.xml。该内容被输入到中xml ed -d，这将删除与给定 XPath 表达式匹配的任何注释。XPath 表达式查找任何<item> 不包含<title>文本的节点的注释"Project Foo"。

这似乎效果很好，而且我对执行时间也很满意：

real    0m0.003s
user    0m0.001s
sys     0m0.002s

注意命名空间

如果您想让它与适当的 rss 或 atom 提要一起工作，您可能会注意到feed包含一个 XML 命名空间（xmlns）属性，就像 YouTube 中的这个示例一样：

<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns:yt="http://www.youtube.com/xml/schemas/2015" xmlns:media="http://search.yahoo.com/mrss/" xmlns="http://www.w3.org/2005/Atom">
   ...
</feed>

那么，上面的脚本将不再起作用！修复它让我很头疼，但下面是如何让它正常工作：

xml ed -d '//_:entry[not(contains(_:title,"Project Foo"))]' < youtube_rss.xml

有关此命名空间问题的更多信息，请参见：http://xmlstar.sourceforge.net/doc/UG/ch05.html

Answer 1