notepad.exe 如何确定字符编码?

notepad.exe 如何确定字符编码?

我有一个以 UTF-8 格式保存的 .txt 文件,无 BOM。它包含“é”字符。

notepad.exe如何确定它是UTF-8编码的?

其他仅包含 < 0x80 个字符的 .txt 文件将以“ANSI”编码打开。

答案1

Raymond Chen 表示:

记事本中某些文件出现奇怪的情况

[...] 当遇到缺少特殊前缀的文件时,记事本会被迫猜测该文件实际使用的是这两种编码中的哪一种。执行此工作的函数是文本Unicode它研究一块字节并进行一些统计分析以得出猜测。

正如文档中指出的,“不能保证绝对的确定性。”短字符串最容易被误检。

(有关的后续博客文章

相关内容