我有一些格式错误的文本,我试图使用 OpenOffice.org Writer 的查找/替换功能重新格式化,该功能支持定义的正则表达式这里。
问题是有些段落在句子中间被分成了两个段落。例如(使用 ^ 表示段落开头,使用 $ 表示段落结尾):
^这是一段很好的段落。$
^他说:“这是一个好段落。”$
^但这些$
^ 是两个损坏的,应该合并为一个。$
我希望构建一个正则表达式来查找任何不以.
或结尾的段落"
并将其与下一段合并(通过用空格替换段落末尾,然后我将检查是否有双空格)。
执行搜索词查找$
会找到(并选择)每个段落的结尾,因此可以替换它。但是,[^\.]$
查找每个未以结尾的段落.
,但会选择最后一个字符而不是段落结尾,因此我无法替换它。
有任何想法吗?
答案1
这就是你想要的。负面回顾:
(?<!\.|")$\n
但是,我不知道 OOo Writer 是否支持负向后视,因此您可以用捕获组替换。
Find: ([^."])$\n
Replace: $1