如何查找与其他单词相近的单词?

如何查找与其他单词相近的单词?

我将创建一本词典,用户可以通过发音和字母找到彼此接近的每个单词。

例如当用户搜索靠近我的网站返回与之相近的其他词,例如附近,梨,亲爱的,后面,这里

怎么做?

喜欢这个网站:韵区

答案1

我认为这相当复杂。它是自然语言编程的一个分支(而不是另一个 NLP,神经语言学)。您需要能够匹配“here”和“hear”——因此您需要分解元素,并将它们映射到语音等价物(h-“ere”和 h-“ere”)。有些拼写有变体语音(cough、plough、through)或更糟糕的同音异义词(the there、they're、their group),这些可能因地区而异(例如,在英国,garage、graph 和 glass 中的长或短“a”)。当您进行语音等价时,它们并不总是单数。

一旦你有了语音等价,你就可以使用各种启发式方法来最小化它们之间的差异。对于诗歌,你可能需要过度强调结尾的权重——押韵主要取决于词尾。你可能也希望诗歌采用头韵——悦耳的头韵可能需要不同的权重。

我会参加一门免费的在线大学 NLP 课程 - 目前有好几门。这些课程能更好地为解析语言的现代技术打下基础。:)

答案2

您可以在相同长度的字符串之间使用字符串比较,并允许一个(或两个)不匹配的字符。

不过,通过查看您的网站,我建议根据单词的语音表示来映射单词,然后对其进行搜索,将字符串视为字符数组,然后从后面开始进行比较。

在您的示例基础上构建:near -> \'nir\ pear -> \'per\ dear -> \'dir\ rear -> \'rir\ 或 \'rer\ here -> \'hir\

(此处我从 Merriam-Webster 在线词典中摘录了语音符号)

恐怕映射应该作为查找表来完成,并且无法编译,因为英语没有很强的发音规则......

无论如何,一旦你映射了你的单词,你就可以比较它们的最后一个音素:在这种情况下,你可能想要寻找以“ir \”结尾的单词(在这种情况下,这将排除“pear”)。

这种方法看起来效率不高:如果我可以使用一些磁盘空间,我会保存搜索以供将来参考:因此当第二次使用查找所有与“near”押韵的单词时,应用程序只会加载已保存的搜索 - 因为字典通常不会发展得太快。

相关内容