从 GNU aspell 词典中获取单词列表

从 GNU aspell 词典中获取单词列表

我下载了 aspell 软件包,用于支持孟加拉语词典。从 tarball 中,我能够分离出 bn.wl 文件,该文件只是一个包含约 100,000 个单词的列表,每行一个单词。

问题是编码显然是 is13194-bn,而我用任何文本编辑器打开文件时都显示乱码(每行一个垃圾词)。它可能期望 utf8 或类似的东西。

我如何将此文件转换为可读格式?我尝试使用 iconv,但它显然无法识别编码。

答案1

使用 aspell 本身以可读格式提供单词列表:

aspell -l bn dump master

-l 开关针对特定的词典,如果不存在,则选择默认词典。

相关内容