Excel 匹配房产地址的最佳公式/函数。
我正在比较房产地址和邮寄地址
在 AI 列中只想要一个真/假值。
答案1
答案2
理论
姓名或地址匹配可能非常具有挑战性,具体取决于数据质量和上下文信息量。至少您只是在进行确认匹配,而不是前瞻性地获取两个不同的地址列表并寻求交叉匹配共同地址!
检查数据是否相同可以让您获得一些帮助 - 但您可能会匹配不足,因为匹配的地址可能不完全相同。
使用您的样本数据,进行简单匹配(相同的号码,相同的街道,只有一个邮政编码,因此没有什么可比较的)可以得到:
- 63 个被正确识别为完全匹配
- 34 个被正确识别为不匹配(其中 7 个地址为空白)
- 26 被错误地识别为不匹配
最大的假阴性来源(c 2/3)只是常用词的缩写 - “court”变成“ct”,“boulevard”变成“blvd”等等。
您可以进行搜索/替换,但必须小心避免“循环”(ave => avenue => avenuenue => avenuenuenue...),并且一般只替换整个单词而不是单词的一部分,而原始 Excel 是一个相当糟糕的工具。
虽然我们也需要空格来识别整个单词,但还存在其他问题(例如缺少或多余的空格)。虽然您的数据非常干净,但进行一些常规清理是个好主意。
很快,您就会开始达到 Excel 公式的极限,需要开始执行 VBA 函数,并很快进入机器学习领域。但做好基础知识将帮助您将 20% 的天真错误率降低约 75%。
在实践中
作为第一步我建议执行以下操作:
(1)清理非打印字符等,并在开始和结束处添加空格,以简化单词识别,并使其全部大写(现在基本上都是大写)
(2)对全词缩写进行字典替换(“Rd”=>“Road”等),尽管标准 Excel 不适合替换大量缩写,因为一个单元格公式中嵌套函数的限制为 7 个。
(3)现在删除所有空格和任何剩余的“垃圾”字符
(4)比较两个地址。
每个地址需要几个公式(因为嵌套限制以及复杂性问题)。
我已附加一张使用您的示例数据(Google Drive 上的 Excel)执行此操作的工作表。
结果
使用这种方法,假阴性(应该接受但被拒绝的匹配)的数量从 26/123 下降到 7/123,下降了近 75%。
使用的替换词典如下:
其余 7 次无法识别匹配的情况如下:
进一步改进是可能的,但要想更进一步,您需要更多地进行地址的语义分析,而不是纯粹的文本到文本匹配或访问主地址数据文件(如果可用)。