希望我能从逻辑上思考这个问题……如何将两个不同但相似的数据集匹配到一个可工作的文件中。例如,我有一个主数据集,列出了医院名称、地址、城市和州。我还有另一个数据集,其中包含医院名称、地址、城市、州和销售信息。我想将两者结合起来,但由于两组之间存在细微差别而无法做到……例如:
**Data Set 1** **Data Set 2 (with Sales info)**
巴尔的摩儿童医院 巴尔的摩儿童医院 123 Baltimore Ave 123 Baltimore Avenue Baltimore, MD 12345 Baltimore, MD 12345
这些基本上是同一家医院,但信息略有不同。
有人知道如何完成这项任务吗?
任何帮助是极大的赞赏。
答案1
我会使用模糊查找插件来实现这一点。它将读取两个表并返回最佳匹配项(或多个匹配项),以及置信度和相似度分数。
http://www.microsoft.com/en-us/download/details.aspx?id=15011
对于典型的数据集,您可以根据置信度得分设置高限和低限(例如,接受任何超过 0.9 的匹配,拒绝任何低于 0.5 的匹配),这样您就可以手动审查一组较小的匹配候选对象。