如何使用 UNIX 命令从 HTML 标签中提取特定 url

Question

使用 XML/HTML 解析器是操作 XML/HTML 数据的正确方法：

sed 's/&/&amp;/g' yourfile | xmlstarlet sel -t -v '//a[div/text() = "News"]/@href' -n

输出：

http://www.rediff.com/news

sed 's/&/&/g'- 将 & 符号&作为特殊字符转换为 HTML 实体
//a[div/text() = "News"]/@href- xpath表达式，如果标签有带有文本的子节点，则提取标签href的属性值adivNews

Answer 1

使用 XML/HTML 解析器是操作 XML/HTML 数据的正确方法：

sed 's/&/&amp;/g' yourfile | xmlstarlet sel -t -v '//a[div/text() = "News"]/@href' -n

输出：

http://www.rediff.com/news

sed 's/&/&/g'- 将 & 符号&作为特殊字符转换为 HTML 实体
//a[div/text() = "News"]/@href- xpath表达式，如果标签有带有文本的子节点，则提取标签href的属性值adivNews

相关内容