如何使用 Unix Sed/Awk 查找 XML 文件的内容？

Question

sed/awk真的是关于常用表达。查看stackoverflow 上的这个答案为什么用正则表达式解析 HTML/XML 是一个坏的主意。

对于 XML，您确实需要构建文档的 DOM，然后找到您的信息。有 cmdline 工具，例如XML之星允许您从 XML 文档中获取信息。

但不要尝试使用 sed/awk 来解析 XML

PS：当然，您也许可以创建一个简单的正则表达式来提取您在现实生活中遇到的文件所需的信息。例如，以下内容将打印文档的第五行，其中（在您的示例中）包含相关信息。

# stupid and naive approach:
sed '5!d' MyXML.xml

但这对文件的布局做出了假设，其中有没有什么与 XML 相关。它可能适用于给定文件的非常特定的生成器，但不能保证适用于遵循相同规则的任何 XML 文件结构（结构化数据就是 XML 的全部内容）

Answer 1

sed/awk真的是关于常用表达。查看stackoverflow 上的这个答案为什么用正则表达式解析 HTML/XML 是一个坏的主意。

对于 XML，您确实需要构建文档的 DOM，然后找到您的信息。有 cmdline 工具，例如XML之星允许您从 XML 文档中获取信息。

但不要尝试使用 sed/awk 来解析 XML

PS：当然，您也许可以创建一个简单的正则表达式来提取您在现实生活中遇到的文件所需的信息。例如，以下内容将打印文档的第五行，其中（在您的示例中）包含相关信息。

# stupid and naive approach:
sed '5!d' MyXML.xml

但这对文件的布局做出了假设，其中有没有什么与 XML 相关。它可能适用于给定文件的非常特定的生成器，但不能保证适用于遵循相同规则的任何 XML 文件结构（结构化数据就是 XML 的全部内容）

相关内容