我正在使用 Sigil 将 html 网站转换为电子书。一个项目有 152 个网页添加到 Sigil epub 项目中。其他一些项目将有数千个条目。(我们从一个小项目开始)
标题是可行的,但有 3 本书,每本书可能有 5 个章节,每章有 10 个条目。
每页都有一个标题,注明书的章节和条目名称。
我们想要制作一个目录,然后使用 RegEx 删除重复项并保留第一个。
自动生成的目录在处理之前的示例如下:(缩进级别将反映唯一的标题标签 h1 h2 h3)
Book 1
Chapter 1
Entry 1
Book 1
Chapter 1
Entry 2
Book 1
Chapter 1
Entry 3
Book 1
Chapter 1
Entry 4
Book 1
Chapter 1
Entry 5
Book 1
Chapter 2
Entry 6
Book 1
Chapter 2
Entry 7
Book 1
Chapter 2
Entry 8
期望结果(未显示的 3 本书)
Book 1
Chapter 1
Entry 1
Entry 2
Entry 3
Entry 4
Book 1
Chapter 2
Entry 5
Entry 6
Entry 7
Entry 8