Microsoft Excel 模糊查找插件 - 设置太大?

Microsoft Excel 模糊查找插件 - 设置太大?

我要比较的数据是一组已编目的项目(90k 个项目)和一份我们认为丢失的项目旧列表(约 11k 个)。我需要查看是否有任何“丢失”的项目实际出现在编目集合中。我尝试使用条件格式查找重复项,但主要标识符(索书号)太乱了。例如

“Y 4 Ex 7/11:W 19/2/v.1-3”在编目集中。

和 Y 4.EX 7/11:W 19/2/V.1

是 4.EX 7/11:W 19/2/V.2

Y 4.EX 7/11:W 19/2/V.3 是缺失集合中的值。

我正在使用模糊查找来查找近似的重复项。https://www.microsoft.com/en-us/download/details.aspx?id=15011 根据模糊查找插件的使用说明,我在单独的选项卡/工作表中创建了两个表,“cataloged_subsetA”和“missing_items”。然后我将匹配数设置为 1,将相似度阈值设置为 0.85。我比较了 4,700 多行,程序停止响应。我检查了内存使用情况,怀疑我已达到内存阈值,但没有收到错误消息或任何提示。

模糊查找比较的结果应使用“Cataloged_subsetA”中的列和“missing_items”中的列以及一个新列“similarity”(其值介于 0 和 1 之间)填充空白表(或表格)

我尝试将配置设置为“UseApproximateIndexing”-True。我尝试为输出创建一个表;我尝试使用空白工作表。我的表仅包含有数据的行,而不是无限列。两个表中都没有任何空单元格。我还尝试使用较小的表作为“左表”,较大的表作为“右表”,反之亦然。我卸载并重新安装了模糊匹配插件。

我尝试创建一个包含 30,000 行(索书号 AE)的子集,并将其与 11,000 行的集合进行比较,并得到了相同的结果:完成约 4700 行后没有响应。然后我进一步缩小范围,从 12,000 行集合到 11,000 行集合。结果相同。

鉴于微软对该插件的代码缺乏透明度以及其他社区网站上的许多未解答的问题,我想我可能需要放弃该插件并找到另一种方法来比较这些集合。

示例“cataloged_subsetA” 示例“missing_items” 样本期望结果

相关内容