查找重复的短语 - 任何工具或正则表达式

查找重复的短语 - 任何工具或正则表达式

我有一份很长的文档,我怀疑其中有些短语(一个或多个句子)是相同的或至少是相似的。有什么方法可以找到这些重复的短语吗?有没有什么工具或正则表达式?

答案1

发现完全相同的句子可以在 Notepad++ 中轻松完成:

  1. 使用正则表达式将每个句子放在新行上。例如,可以通过搜索所有内容.并将其替换为.\n
  2. 删除行首的所有空格。
  3. 现在继续对行进行排序(TextFX -> TextFX 工具)
  4. 将 EOL 字符转换为 UNIX 因为这样可以使事情变得更简单(编辑 -> EOL 转换)
  5. 现在通过搜索来搜索重复的行^([^\n]+)\n\1

为了找到相似的句子,你需要一些像词干提取程序或者某种模糊搜索之类的东西。

相关内容