我正在尝试找出我收到的文本文件使用哪种编码。我知道这种编码编码é为 0x8E。
具体问题:哪些编码可能对应?
一般问题:一般来说,我如何才能找出哪些编码与以(Unicode 字符、字节序列)对表示的某些约束相匹配?
uchardet 没有帮助:它检测到 windows-1252,但在我的例子中这显然是不正确的。一般来说,与使用约束作为外部知识相比,这种工具在检测编码方面表现较差。
我理解,从概念上讲,任何编码都可以设想将 é 编码为 0x8E,将其他任何编码编码为其他任何编码,但我只想在人类普遍使用的编码中进行搜索。 (具体来说,在这种情况下,可能是西欧世界普遍使用的某种编码。)
我怀疑这可以通过使用 uchardet 中的数据文件,巧妙地使用 grep 或类似工具来实现。最好是,所涉及的工具是免费的,就像言论自由一样,并且可以在标准 GNU-Linux 发行版上使用。