Sakura 内部的字符编码是如何完成的?

Sakura 内部的字符编码是如何完成的?

在 Sakura 编辑器中,您可以拥有一个.txtUTF-8 编码的文件,其中包含 2 个 EUC 字符集中没有的字符。

当我在编辑器中将 UTF-8 保存.txt为 EUC 时,一切运行良好,所有字符都正确显示。

有人知道编辑器使用什么逻辑来实现这一点吗?

答案1

包含 2 个 EUC 字符集中不存在的字符

如果您看到两个字符ÿþ(hex FF FE) 或þÿ(hex FE FF)在第一行的开头,则文件采用 UTF-16 编码,而不是 UTF-8。这些字符实际上是“字节顺序标记“(BOM),编辑应该解释它,而不是显示它。

(万一你看到字符(十六进制EF BB BF)位于第一行的开头,那么这就是 UTF-8 的 BOM。如果您看到其他字符,或者不在第一行的开头,您能否编辑您的问题以添加一些示例?)

相关内容