如何获取单词的原始形式

如何获取单词的原始形式

使用文本文件(例如故事的 word 文件),然后https://superuser.com/a/1598832/109367,可以生成所有不同单词的列表。

然而,这还不是原始形式的词——对于动词来说(例如),有动名词,动词变位,第三人称单数动词(消失了); 名词(例如苹果) 有复数形式 (苹果)。

我怎样才能获得一个单词的原始形式?以便我可以获得一本书的词汇表等等。

更好的是,如果这个解决方案不仅适用于英语,还适用于法语等。

答案1

你没有指定你使用的是什么平台,但你正在寻找的是词干提取算法。该算法采用变格词,并将它们简化为共同的词干/词根。

大多数自然语言处理 (NLP) 库都包含可行的词干提取算法。

以下几个链接可能会有帮助:

答案2

(这不是真正的答案,但我将其作为答案发布,因为它不允许我发表评论)

...单词的原始形式?...不仅是英语,还有法语等。

两种语言之间不存在一一对应的词——无论是含义上,还是词形变化方式上。许多语言都具有高度的词形变化,语法形态不适用于其他语言。所以你想要完成的事情,其实并不是列出清单,而是需要学习和理解语言。

相关内容