如何使用 Notepad ++ 查找并标记所有重复段落?

如何使用 Notepad ++ 查找并标记所有重复段落?

我经常需要处理包含数千行内容的 PDF 文件。重复段落非常常见,因此我希望有某种自动化功能可以查找并突出显示所有段落。

我通常会复制粘贴完整的 PDF 文件记事本++, 所以我正在寻找的是 RegEx 代码在Notepad++中执行。

我找到了这个帖子,但这不适用于我的情况。

(([^?]+\?\R(?:.+\.\R)+)[\s\S]+?)\2

我也尝试过在 Word 中使用我找到的 VBA 代码,但处理起来非常耗时,因为每个文件平均有 50,000 行和 350,000 个单词。由于需要处理的文本量很大,甚至会出现很多无响应问题。或者可能是因为我的电脑很旧

示例如下:

虽然在债务人提出破产申请后未能解除扣押令违反了自动中止制度,但由于法院并未发现被告的行为构成对自动中止制度的严重违反,也未发现被告的行为具有恶意,因此不应判处惩罚性赔偿。

法院无需考虑佐治亚州法律下的既判力要件是否得到满足,因为诉讼排除原则不适用于债务人因违反中止规定而提出的惩罚性赔偿要求。

虽然在债务人提出破产申请后未能解除扣押令违反了自动中止制度,但由于法院并未发现被告的行为构成对自动中止制度的严重违反,也未发现被告的行为具有恶意,因此不应判处惩罚性赔偿。

法院无需考虑佐治亚州法律下的既判力要件是否得到满足,因为诉讼排除原则不适用于债务人因违反中止规定而提出的惩罚性赔偿要求。

我将非常感激所有能得到的帮助。谢谢!

答案1

只需更换

  • (([^?]+\?\R(?:.+\.\R)+)[\s\S]+?)\2

和:

  • (([\S\s]+\R(?:.+\.\R)+)[\s\S]+?)\2

因为你的文本中没有任何问号。

  • [^?]+\??表示1 个或多个非?
  • [\S\s]+表示一个或多个任意字符

其余解释可以在链接的答案中找到。

注意:我是链接答案的作者。

之前的截图:

在此处输入图片描述

之后的截图:

在此处输入图片描述

相关内容