我有一份很长的文档,我怀疑其中有些短语(一个或多个句子)是相同的或至少是相似的。有什么方法可以找到这些重复的短语吗?有没有什么工具或正则表达式?
答案1
发现完全相同的句子可以在 Notepad++ 中轻松完成:
- 使用正则表达式将每个句子放在新行上。例如,可以通过搜索所有内容
.
并将其替换为.\n
- 删除行首的所有空格。
- 现在继续对行进行排序(TextFX -> TextFX 工具)
- 将 EOL 字符转换为 UNIX 因为这样可以使事情变得更简单(编辑 -> EOL 转换)
- 现在通过搜索来搜索重复的行
^([^\n]+)\n\1
为了找到相似的句子,你需要一些像词干提取程序或者某种模糊搜索之类的东西。