如何使用正则表达式删除未分类的重复标题?
我正在使用 Sigil 将 html 网站转换为电子书。一个项目有 152 个网页添加到 Sigil epub 项目中。其他一些项目将有数千个条目。(我们从一个小项目开始) 标题是可行的,但有 3 本书,每本书可能有 5 个章节,每章有 10 个条目。 每页都有一个标题,注明书的章节和条目名称。 我们想要制作一个目录,然后使用 RegEx 删除重复项并保留第一个。 自动生成的目录在处理之前的示例如下:(缩进级别将反映唯一的标题标签 h1 h2 h3) Book 1 Chapter 1 Entry 1 Book 1...