如何使用正则表达式删除未分类的重复标题?

如何使用正则表达式删除未分类的重复标题?

我正在使用 Sigil 将 html 网站转换为电子书。一个项目有 152 个网页添加到 Sigil epub 项目中。其他一些项目将有数千个条目。(我们从一个小项目开始)

标题是可行的,但有 3 本书,每本书可能有 5 个章节,每章有 10 个条目。

每页都有一个标题,注明书的章节和条目名称。

我们想要制作一个目录,然后使用 RegEx 删除重复项并保留第一个。

自动生成的目录在处理之前的示例如下:(缩进级别将反映唯一的标题标签 h1 h2 h3)

  Book 1
     Chapter 1
         Entry 1
  Book 1
     Chapter 1
         Entry 2
  Book 1
     Chapter 1
         Entry 3
  Book 1
     Chapter 1
         Entry 4
  Book 1
     Chapter 1
         Entry 5
  Book 1
     Chapter 2
         Entry 6
  Book 1
     Chapter 2
         Entry 7
  Book 1
     Chapter 2
         Entry 8

期望结果(未显示的 3 本书)

  Book 1
     Chapter 1
         Entry 1
         Entry 2
         Entry 3
         Entry 4
  Book 1
     Chapter 2
         Entry 5
         Entry 6
         Entry 7
         Entry 8

相关内容