删除大文件中的 XML 标记

Question 1

我建议你尝试一下xml_grep，它会很慢但内存效率很高。它是perl-XML-Twig(或xml-twig-tools) - 用于以树模式处理大型 Xml 文档的 Perl 模块的一部分。您可以使用-v按名称排除节点。请参阅man xml_grep，用小输入测试您的命令。

例子：

xml_grep --nowrap -v 'text' input.xml > output.xml

或者用进度条来观看，因为这会花费很多时间：

pv input.xml | xml_grep --nowrap -v 'text' > output.xml

对于一般情况，您可以使用 Python、Perl、Java、Ruby (nokogiri) 或类似的带有一些 sax/stream 模块的语言。

Answer

我建议你尝试一下xml_grep，它会很慢但内存效率很高。它是perl-XML-Twig(或xml-twig-tools) - 用于以树模式处理大型 Xml 文档的 Perl 模块的一部分。您可以使用-v按名称排除节点。请参阅man xml_grep，用小输入测试您的命令。

例子：

xml_grep --nowrap -v 'text' input.xml > output.xml

或者用进度条来观看，因为这会花费很多时间：

pv input.xml | xml_grep --nowrap -v 'text' > output.xml

对于一般情况，您可以使用 Python、Perl、Java、Ruby (nokogiri) 或类似的带有一些 sax/stream 模块的语言。

Question 2

以下 XSLT 3.0 样式表将完成这项工作：

<xsl:transform xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
  version="3.0">
 <xsl:mode streamable="yes" on-no-match="shallow-copy"/>
 <xsl:template match="text"/>
</xsl:template>

警告：您将需要一个流式 XSLT 处理器，这实际上可能意味着 Saxon Enterprise Edition，它是我的公司 Saxonica 的商业产品。

另请注意，处理速度可能约为 2Gb/分钟，当然取决于硬件。

另一种方法是使用类似 SAX 的 API 编写自己的代码来完成此操作。

Answer

以下 XSLT 3.0 样式表将完成这项工作：

<xsl:transform xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
  version="3.0">
 <xsl:mode streamable="yes" on-no-match="shallow-copy"/>
 <xsl:template match="text"/>
</xsl:template>

警告：您将需要一个流式 XSLT 处理器，这实际上可能意味着 Saxon Enterprise Edition，它是我的公司 Saxonica 的商业产品。

另请注意，处理速度可能约为 2Gb/分钟，当然取决于硬件。

另一种方法是使用类似 SAX 的 API 编写自己的代码来完成此操作。

删除大文件中的 XML 标记

答案1

答案2

相关内容