需要哪些中文区域设置才能避免字符丢失或不匹配?

需要哪些中文区域设置才能避免字符丢失或不匹配?

Arch Linux 在 中列出了以下不同的中文语言环境/etc/locale.gen

#zh_CN.GB18030 GB18030
#zh_CN.GBK GBK
#zh_CN.UTF-8 UTF-8
#zh_CN GB2312
#zh_HK.UTF-8 UTF-8
#zh_HK BIG5-HKSCS
#zh_SG.UTF-8 UTF-8
#zh_SG.GBK GBK
#zh_SG GB2312
#zh_TW.EUC-TW EUC-TW
#zh_TW.UTF-8 UTF-8
#zh_TW BIG5

这些区域设置是特定于区域的(代表中国大陆、香港、新加坡和台湾,甚至不包括日本和韩国),但每个区域仍然有多个区域设置。

由于汉字的非系统性以及分布在如此大的使用区域,将汉字纳入 UTF 的过程并非易事:使用情况因地区而异。同一汉字有多种变体,政治和文化因素也发挥着作用,即使在同一地区,人们也可能更喜欢使用某些汉字变体而不是官方汉字,而不仅仅是在手写体中。

一些技术问题的解释这里通俗地说。

我的理解是,繁体中文和简体中文中相同的字符(例如“你”)以及同一字符在“简体”或“繁体”同一类别中的不同变体获得相同的代码点和字符变体是使用不同的字体来实现的。

相反,足够不同的版本(例如不同的简体和繁体字符,如“从”和“从”)获得不同的代码点,因此,同一字符的多个版本可以包含在同一字体中。

这种交织性(简体、繁体和字符变体都包含在 UTF 中)导致了一个问题:为什么所有这些不同的语言环境对于中文来说都是必需的,以及作为用户是否有必要将它们全部安装。


在安装了足够字体的系统上(系统上存在用于显示每个字符的字形):

我真正需要哪种语言环境才能正确显示大多数字符?

哪些中文编码已经合并到另一种编码中(例如,UTF 是否向后兼容 Big5 或其他中文编码,如 ASCII)?

答案1

我将使用西方的例子来避免中国政治并避免我缺乏中文知识

相关内容