从html中按模式抓取两个字符串

Question

您可以将 HTML 转换为 XML，然后使用支持 XML 的解析器来挑选相关项目。

xmlstarlet format -H index.html 2>/dev/null |
    xmlstarlet select -T -t -m '//a' -v 'concat(., " ", @href)' -n 2>/dev/null

当我测试时，我将示例摘录包装在<root>...中</root>，但您不需要使用 HTML 来执行此操作。结果输出，每对字段在一行上，以空格分隔：

gnu/linux https://www.gnu.org/gnu/
Crontab https://crontab.guru/

您可能会发现最好先提供 URL（不带空格），然后提供说明。或者使用制表符分隔字段。

如果您还没有，xmlstarlet它位于标准包中，因此非常容易安装。

Answer 1

您可以将 HTML 转换为 XML，然后使用支持 XML 的解析器来挑选相关项目。

xmlstarlet format -H index.html 2>/dev/null |
    xmlstarlet select -T -t -m '//a' -v 'concat(., " ", @href)' -n 2>/dev/null

当我测试时，我将示例摘录包装在<root>...中</root>，但您不需要使用 HTML 来执行此操作。结果输出，每对字段在一行上，以空格分隔：

gnu/linux https://www.gnu.org/gnu/
Crontab https://crontab.guru/

您可能会发现最好先提供 URL（不带空格），然后提供说明。或者使用制表符分隔字段。

如果您还没有，xmlstarlet它位于标准包中，因此非常容易安装。

相关内容