如何使用 xstarlet 从 XHTML 中删除具有特定类的 div?

如何使用 xstarlet 从 XHTML 中删除具有特定类的 div?

我的子目录 (*) 中有数百个 .xhtml 文件,我想从中删除具有特定类的所有 DIV(以及这些 DIV 的全部内容 - 包括其他 div、span、图像和段落元素)。 DIV 可以在每个 .xhtml 文件内的任意深度出现零次、一次或多次。

我要删除的具体DIV是:

<div class="portlet solid author-note-portlet">.....</div>

使用xml_grepperl 中的实用程序XML::树枝模块,我可以运行它xml_grep -v 'div[@class="portlet solid author-note-portlet"]' file*.xhtml,它将从 .xhtml 文件中删除该 div 的所有实例,并在 stdout 上显示结果。正是我想要的,除了“显示在标准输出上”。

如果xml_grep有某种就地编辑选项,那很好,我只是使用它......但它没有,所以我必须编写一个使用临时文件的包装器脚本或sponge运行xml_grep 分别针对每个 .xhtml 文件,这会很慢而且乏味。或者我可以破解 xml_grep 的副本,以便它可以编辑其输入文件。

但我不想做这两件事,我想使用已经可以做到这一点的现有工具,我想使用xmlstarlet- 它会更快,有就地编辑,而且我不必每个文件名运行一次。

问题是,无论我尝试什么(并且我已经尝试了数十种变体),我都无法找出正确的 xpath 规范来删除此类的 div。例如我尝试过:

xmlstarlet ed -d "div[@class='portlet solid author-note-portlet']" file.xhtml

和(具有不同的引用)

xmlstarlet ed -d 'div[@class="portlet solid author-note-portlet"]' file.xhtml

xmlstarlet ed -d '//html/body/div/div/div[@class="portlet solid author-note-portlet"]'

以及数十种其他变体。它们都没有导致 xhtml 输出发生任何变化。这时候我通常会放弃 xmlstarlet 并编写 perl 脚本,但这次我决心使用 xmlstarlet 来完成。

那么,为 xmlstarlet 指定这个 div 类的正确方法是什么?

顺便说一句,对于一个示例 .xhtml 文件(有这个 div 的两个实例,它们恰好处于相同的深度......这是相当典型的但不通用),xmlstarlet el -v说:

$ xmlstarlet el -v OEBPS/file0007.xhtml | grep author-note-portlet
html/body/div/div[@class='portlet solid author-note-portlet']
html/body/div/div[@class='portlet solid author-note-portlet']

(*) 这并不重要,但这些 .xhtml 文件位于由同人小说票价插件口径- 它从各种小说网站上的书籍中下载所有章节,并将它们转换为 epub 文件(基本上是一个 zip 存档,包含 XHTML 和 CSS 文件,可能还有 jpeg 或 gif 文件,以及一堆元数据文件)。

<div class="portlet solid author-note-portlet">被一个网站(Royal Road)使用,供作者在章节中添加注释。一些作者很少使用它,并插入有关章节或书籍的简短注释或有关随机内容的简短公告,可能还带有指向其订阅者页面的链接……好吧,没什么大不了的。

其他人用它来添加半页注释,并在开头添加指向他们其他 10 本书的链接每个并再次在每章末尾添加这些书籍的三页半链接(带有封面图像)。如果你在网站上以连载形式逐章阅读,这还算可以,但如果你把它当作一本书来阅读,那就不行了——每 6-10 个人就有 4 页的自我推销内容故事的页数过多且分散注意力。而且,顺便说一句,这在我的 10 英寸 Android 平板电脑上有 4 个“页面”,是我手机上的两倍多。

我可以轻松地添加display: none到此类的 epub 样式表,但我想实际从 .xhtml 文件中删除 div。它们明显增加了 .epub 文件的大小。

(**) 使用 unzip 提取 .epub 的内容并随后重建它超出了此问题的范围,因此请不要因不相关的细节而分心。已经处理了。


示例 .xhtml 文件,编辑至最低限度(故事/章节/作者姓名匿名以保护“有罪:-):

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN"
  "http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>Chapter Five - Chapter Name</title>
<link href="stylesheet.css" type="text/css" rel="stylesheet"/>
<meta name="chapterurl" content="https://www.royalroad.com/fiction/URL"/>
<meta name="chapterorigtitle" content="Chapter Five - Chapter Name"/>
<meta name="chaptertoctitle" content="Chapter Five - Chapter Name"/>
<meta name="chaptertitle" content="Chapter Five - Chapter Name"/>
</head>
<body class="fff_chapter">
<h3 class="fff_chapter_title">Chapter Five - Chapter Name</h3>
<div class="chapter-inner chapter-content"><div class="portlet solid author-note-portlet">
                    <div class="portlet-title">
                        <div class="caption">
                            <i class="fa fa-sticky-note"></i>
                            <span class="caption-subject bold uppercase">A note from Author Name</span>
                        </div>
                    </div>
                    <div class="portlet-body author-note"><p><span>About a dozen or so p, span, img, and br tags here</span></p>
</div>
                </div>
<p> story text here.  a few hundreds p, br, etc tags
</p>
            <div class="portlet solid author-note-portlet">
                    <div class="portlet-title">
                        <div class="caption">
                            <i class="fa fa-sticky-note"></i>
                            <span class="caption-subject bold uppercase">A note from Author Name</span>
                        </div>
                    </div>
                    <div class="portlet-body author-note"><p>several dozen more p, span, br, img, etc tags here</p>
</div>
                </div>
</div>
</body>
</html>

答案1

正确的方法xmlstarlet

xmlstarlet ed --inplace -N xmlns="http://www.w3.org/1999/xhtml" \
    --delete '//xmlns:div[@class="portlet solid author-note-portlet"]' file

或者,使用简短的选项,

xmlstarlet ed -L -N xmlns="http://www.w3.org/1999/xhtml" \
    -d '//xmlns:div[@class="portlet solid author-note-portlet"]' file

由于文档使用默认名称空间,因此我们需要让xmlstarlet所有节点都属于该名称空间,然后在 XPath 表达式中使用名称空间占位符作为节点名称的前缀。

根据文档,-N必须是最后一个“全局选项”,即它必须位于-L(另一个全局选项)之后。是-d的“删除操作” xmlstarlet ed,因此它不是全局选项之一。

XPath将递归地查找名称空间中//xmlns:div调用的节点。divxmlns

在这个问题中,除了不处理名称空间之外,您还指定了不足或过度指定了该名称空间。使用div,与 相同/div,将匹配根节点,并且//html/body/div/div/div将匹配html/body/div/div, 任何位置的直接子节点。


包装纸yq(安德烈·基斯柳克)围绕JSON处理器jq自带XML 解析器包装器称为xq。你也可以使用它:

xq -x 'del(.. | .div? | select(."@class"? == "portlet solid author-note-portlet"))' file

-x( )选项--xml-output为您提供 XML 输出而不是 JSON 输出。xq-i( ) 一起使用--in-place将使其进行就地编辑。

此 XML 解析器不关心名称空间。

答案2

一个单独的注释是,鉴于您可以使用 实现所需的过滤xml_grep,那么您解决问题的时间将比使用以下 bash 命令编写问题所需的时间少得多

    mkdir temp
    for file in <subdir>/*.xhtml; do
        # Your magic xml_grep command
        xml_grep -v 'div[@class="portlet solid author-note-portlet"]' "$file" > "temp/$file"
    done
    rm -r subdir
    mv temp subdir

另一方面,学习使用其他工具也有好处和满足感。

相关内容