我有一个包含大量近似重复内容的字幕列表。例如:
- 她的生日
- 送给她的生日
- 生日 - 送给她
- 送给她 / 生日
我正在研究模糊查找,以突出显示这些近似重复项
答案1
我正在研究模糊查找,以突出显示这些近似重复项
Excel 的模糊查找插件对 Excel 中的文本数据执行模糊匹配。
Excel 模糊查找插件
Excel 的模糊查找插件由微软研究院开发,可对 Microsoft Excel 中的文本数据执行模糊匹配。
它可用于识别单个表中的模糊重复行或模糊连接两个不同表之间的相似行。匹配对各种错误都很稳健,包括拼写错误、缩写、同义词和添加/丢失的数据。
例如,它可能会检测到“Mr. Andrew Hill”、“Hill, Andrew R.”和“Andy Hill”这几行都指的是同一个底层实体,并在每个匹配项中返回一个相似度分数。
虽然默认配置适用于各种文本数据(例如产品名称或客户地址),但也可以针对特定域或语言定制匹配。
关于相似度阈值配置有什么建议吗?
在 Excel 中执行模糊查找对相似度阈值配置有一些提示。