我想使用 sed 从 html 标签中提取值

Question 1

您可以用作html2sed 的“预处理器”：

$ html2 <file 2>/dev/null | sed '/td=/!d;s/^.*td=//'
ANT
$interoprfbcheck_prodconnectorstatus_ANT
ANT
 GREEN

Answer

您可以用作html2sed 的“预处理器”：

$ html2 <file 2>/dev/null | sed '/td=/!d;s/^.*td=//'
ANT
$interoprfbcheck_prodconnectorstatus_ANT
ANT
 GREEN

Question 2

GREEN不会出现，因为生成器将其放置在单独的行上，因此您的sed脚本找不到匹配项。无需特殊安排，sed即可将传入流逐行拉入匹配空间。

因此，您需要使用N命令将新行拉入匹配空间，直到在那里关闭</tr>，然后将模式空间的副本存储在保留空间中，删除前导<tr ...>标签并删除从</tr>匹配空间开始到末尾的所有内容并打印它。

此后，您需要将匹配空间替换为保留空间的内容，删除已打印的部分并重新开始寻找前导<tr ...>标签。

info sed详情请参阅

Answer

GREEN不会出现，因为生成器将其放置在单独的行上，因此您的sed脚本找不到匹配项。无需特殊安排，sed即可将传入流逐行拉入匹配空间。

因此，您需要使用N命令将新行拉入匹配空间，直到在那里关闭</tr>，然后将模式空间的副本存储在保留空间中，删除前导<tr ...>标签并删除从</tr>匹配空间开始到末尾的所有内容并打印它。

此后，您需要将匹配空间替换为保留空间的内容，删除已打印的部分并重新开始寻找前导<tr ...>标签。

info sed详情请参阅

Question 3

由于多种原因，您发布的 HTML 示例不是有效的 XML。但是，如果问题已解决，您可以使用以下命令：

xmlstarlet sel -t -v '//td[text()]' input.html

结果并不完全符合您的预期，因为最后一个非空的文本td不是GREEN, 而是\nGREEN。

Answer

由于多种原因，您发布的 HTML 示例不是有效的 XML。但是，如果问题已解决，您可以使用以下命令：

xmlstarlet sel -t -v '//td[text()]' input.html

结果并不完全符合您的预期，因为最后一个非空的文本td不是GREEN, 而是\nGREEN。

相关内容