为什么 UTF-8 的 MB_CUR_MAX 是 6 而不是 4？（Linux、glibc）

Question

根据维基百科，直到 2003 年，UTF-8 确实需要最多 6 个字节，当时 RFC 3629 添加了一些限制：

UTF-8 于 1993 年 1 月 25 日至 29 日在圣地亚哥举行的 USENIX 会议上首次正式提出。互联网工程任务组在 RFC 2277 (BCP 18) 的字符集和语言政策中为未来的互联网采用了 UTF-8标准工作[...]

[上表标有“UTF-8 (1993)”，显示表示从 U+4000000 到 U+7FFFFFFF 的代码点需要 6 个字节]

2003年11月，UTF-8受到RFC 3629的限制，以匹配UTF-16字符编码的约束：明确禁止高低代理字符对应的码点删除超过3%的三字节序列，并结束在 U+10FFFF删除了超过 48% 的四字节序列以及所有五字节和六字节序列。

Answer 1

根据维基百科，直到 2003 年，UTF-8 确实需要最多 6 个字节，当时 RFC 3629 添加了一些限制：

UTF-8 于 1993 年 1 月 25 日至 29 日在圣地亚哥举行的 USENIX 会议上首次正式提出。互联网工程任务组在 RFC 2277 (BCP 18) 的字符集和语言政策中为未来的互联网采用了 UTF-8标准工作[...]

[上表标有“UTF-8 (1993)”，显示表示从 U+4000000 到 U+7FFFFFFF 的代码点需要 6 个字节]

2003年11月，UTF-8受到RFC 3629的限制，以匹配UTF-16字符编码的约束：明确禁止高低代理字符对应的码点删除超过3%的三字节序列，并结束在 U+10FFFF删除了超过 48% 的四字节序列以及所有五字节和六字节序列。

为什么 UTF-8 的 MB_CUR_MAX 是 6 而不是 4？（Linux、glibc）

答案1

相关内容