我下载了 aspell 软件包,用于支持孟加拉语词典。从 tarball 中,我能够分离出 bn.wl 文件,该文件只是一个包含约 100,000 个单词的列表,每行一个单词。
问题是编码显然是 is13194-bn,而我用任何文本编辑器打开文件时都显示乱码(每行一个垃圾词)。它可能期望 utf8 或类似的东西。
我如何将此文件转换为可读格式?我尝试使用 iconv,但它显然无法识别编码。
答案1
使用 aspell 本身以可读格式提供单词列表:
aspell -l bn dump master
-l 开关针对特定的词典,如果不存在,则选择默认词典。