从 html 文件中获取选定的标签

Question 1

您可以使用grep它及其唯一匹配的参数（-o），例如：

$ grep -o "<[^>]*>" <(curl -s http://example.com/)

这将打印包括订单在内的所有 html 标签。

要仅包含<script>标签，请尝试（index.html使用您的文件更改）：

$ grep -Eo "<script.*(</script>|>)" index.html

为了获取文件名（从src属性），您可以通过添加另一个来扩展grep，例如：

$ grep -Eo "<script.*(</script>|>)" index.html | grep -o '"[^"]*"' | tr -d '"'

上述语法无法帮助您处理许多不同的 html 代码变体，因此对于更复杂的解决方案，使用正则表达式解析 html一般不建议，因此你应该使用适当的工具（你喜欢的语言或查看这些外壳工具）。

Answer

您可以使用grep它及其唯一匹配的参数（-o），例如：

$ grep -o "<[^>]*>" <(curl -s http://example.com/)

这将打印包括订单在内的所有 html 标签。

要仅包含<script>标签，请尝试（index.html使用您的文件更改）：

$ grep -Eo "<script.*(</script>|>)" index.html

为了获取文件名（从src属性），您可以通过添加另一个来扩展grep，例如：

$ grep -Eo "<script.*(</script>|>)" index.html | grep -o '"[^"]*"' | tr -d '"'

上述语法无法帮助您处理许多不同的 html 代码变体，因此对于更复杂的解决方案，使用正则表达式解析 html一般不建议，因此你应该使用适当的工具（你喜欢的语言或查看这些外壳工具）。

Question 2

我知道你已经接受了答案，但我还想补充一点，你可以看看xpath。

它专门用于 xml 样式的数据。

在你的情况下，这个 xpath 将是

//script

这里也是有人使用 xpath 解析 HTML 的另一个例子

Answer

我知道你已经接受了答案，但我还想补充一点，你可以看看xpath。

它专门用于 xml 样式的数据。

在你的情况下，这个 xpath 将是

//script

这里也是有人使用 xpath 解析 HTML 的另一个例子

相关内容