为什么 inputenc 在定义八位字节解析时会跳过字符？

Question

您无法创建以 C0 或 C1 开头的 UTF8 代码。需要两个字节的最低 Unicode 是 80，即1000 0000二进制。（它是 € 字符，但现在这并不重要）。您只有 6 位将其保存到第二个字节，因为第二个字节必须以为前缀10。因此，我们将二进制数除以 2+6：。10 000000第一部分必须保存到以为前缀的第一个字节110，即110 00010，第二部分保存到以为前缀的第二个字节10，即10 000000。生成的 UTF8 代码是11000010 10000000，即 C2 80。

Answer 1

您无法创建以 C0 或 C1 开头的 UTF8 代码。需要两个字节的最低 Unicode 是 80，即1000 0000二进制。（它是 € 字符，但现在这并不重要）。您只有 6 位将其保存到第二个字节，因为第二个字节必须以为前缀10。因此，我们将二进制数除以 2+6：。10 000000第一部分必须保存到以为前缀的第一个字节110，即110 00010，第二部分保存到以为前缀的第二个字节10，即10 000000。生成的 UTF8 代码是11000010 10000000，即 C2 80。

为什么 inputenc 在定义八位字节解析时会跳过字符？

答案1

相关内容