/usr/share/dict/words 中的单词来自哪里?

/usr/share/dict/words 中的单词来自哪里?

/usr/share/dict/words包含很多单词。这个列表是如何生成的?它的内容在不同的 Unice 中是否相同?是否有任何标准规定它必须包含什么?

到目前为止,我所能找到的只是在 Ubuntu/Debian 上,该列表来自单词表包,但它们的描述没有提供有关列表实际如何生成的线索。

答案1

你问了多个问题,但我认为主要的一个是:

是否有任何标准规定它必须包含什么?

据我所知,没有。

鉴于此,您的相关问题:

这个列表是如何生成的?它的内容在不同的 Unice 中是否相同?

回答“这取决于每个不同的 Unix”。

将单词列表作为操作系统一部分的惯例来自于实用spell(1)程序,它将它用于原始的拼写检查过程。

学术论文中描述了该拼写检查程序“拼写列表的开发”,贝尔实验室 MD McIlroy,1982 年

您应该检查操作系统的包管理器,了解拼写列表的来源、生成方式以及可用的替代方案。

以 Debian GNU+Linux 为例:

  • /usr/share/dict/words文件是使用 Debian “替代品”系统管理的符号链接。
  • 提供该链接的通用单词列表包就是wamerican包。
  • 包文档声明wamerican其单词列表来自SCOWL(面向拼写检查的单词列表)项目。

可以安装许多其他单词列表包;他们每个人都有“提供:单词列表”字段:

$ aptitude search '?provides(wordlist)' | wc -l
34

在不同的 Unices 上,您需要查看软件包系统和文档来了解单词列表的出处和替代项。

相关内容