使用文本文件(例如故事的 word 文件),然后https://superuser.com/a/1598832/109367,可以生成所有不同单词的列表。
然而,这还不是原始形式的词——对于动词来说(例如去),有动名词,动词变位,第三人称单数动词(去,去,去,消失了); 名词(例如苹果) 有复数形式 (苹果)。
我怎样才能获得一个单词的原始形式?以便我可以获得一本书的词汇表等等。
更好的是,如果这个解决方案不仅适用于英语,还适用于法语等。
答案1
你没有指定你使用的是什么平台,但你正在寻找的是词干提取算法。该算法采用变格词,并将它们简化为共同的词干/词根。
大多数自然语言处理 (NLP) 库都包含可行的词干提取算法。
以下几个链接可能会有帮助:
答案2
(这不是真正的答案,但我将其作为答案发布,因为它不允许我发表评论)
...单词的原始形式?...不仅是英语,还有法语等。
两种语言之间不存在一一对应的词——无论是含义上,还是词形变化方式上。许多语言都具有高度的词形变化,语法形态不适用于其他语言。所以你想要完成的事情,其实并不是列出清单,而是需要学习和理解语言。