/usr/share/dict/words
包含很多单词。这个列表是如何生成的?它的内容在不同的 Unice 中是否相同?是否有任何标准规定它必须包含什么?
到目前为止,我所能找到的只是在 Ubuntu/Debian 上,该列表来自单词表包,但它们的描述没有提供有关列表实际如何生成的线索。
答案1
你问了多个问题,但我认为主要的一个是:
是否有任何标准规定它必须包含什么?
据我所知,没有。
鉴于此,您的相关问题:
这个列表是如何生成的?它的内容在不同的 Unice 中是否相同?
回答“这取决于每个不同的 Unix”。
将单词列表作为操作系统一部分的惯例来自于实用spell(1)
程序,它将它用于原始的拼写检查过程。
学术论文中描述了该拼写检查程序“拼写列表的开发”,贝尔实验室 MD McIlroy,1982 年。
您应该检查操作系统的包管理器,了解拼写列表的来源、生成方式以及可用的替代方案。
以 Debian GNU+Linux 为例:
- 该
/usr/share/dict/words
文件是使用 Debian “替代品”系统管理的符号链接。 - 提供该链接的通用单词列表包就是
wamerican
包。 - 包文档声明
wamerican
其单词列表来自SCOWL(面向拼写检查的单词列表)项目。
可以安装许多其他单词列表包;他们每个人都有“提供:单词列表”字段:
$ aptitude search '?provides(wordlist)' | wc -l
34
在不同的 Unices 上,您需要查看软件包系统和文档来了解单词列表的出处和替代项。