从 GNU aspell 词典中获取单词列表

2024-6-13 • tag-icon

我下载了 aspell 软件包，用于支持孟加拉语词典。从 tarball 中，我能够分离出 bn.wl 文件，该文件只是一个包含约 100,000 个单词的列表，每行一个单词。

问题是编码显然是 is13194-bn，而我用任何文本编辑器打开文件时都显示乱码（每行一个垃圾词）。它可能期望 utf8 或类似的东西。

我如何将此文件转换为可读格式？我尝试使用 iconv，但它显然无法识别编码。

使用 aspell 本身以可读格式提供单词列表：

aspell -l bn dump master

-l 开关针对特定的词典，如果不存在，则选择默认词典。

相关内容