查找将给定字符编码为给定序列的编码

2024-6-18 • tag-icon

我正在尝试找出我收到的文本文件使用哪种编码。我知道这种编码编码é为 0x8E。

具体问题：哪些编码可能对应？

一般问题：一般来说，我如何才能找出哪些编码与以（Unicode 字符、字节序列）对表示的某些约束相匹配？

uchardet 没有帮助：它检测到 windows-1252，但在我的例子中这显然是不正确的。一般来说，与使用约束作为外部知识相比，这种工具在检测编码方面表现较差。

我理解，从概念上讲，任何编码都可以设想将 é 编码为 0x8E，将其他任何编码编码为其他任何编码，但我只想在人类普遍使用的编码中进行搜索。 (具体来说，在这种情况下，可能是西欧世界普遍使用的某种编码。)

我怀疑这可以通过使用 uchardet 中的数据文件，巧妙地使用 grep 或类似工具来实现。最好是，所涉及的工具是免费的，就像言论自由一样，并且可以在标准 GNU-Linux 发行版上使用。

相关内容