为什么“版权”、“注册商标”和“商标”符号被视为表情符号?

为什么“版权”、“注册商标”和“商标”符号被视为表情符号?

我花了好几天的时间,费尽心机才弄清楚如何从字符串中删除所有表情符号。这比我想象的要复杂得多。

然而,当我让它工作起来时,我做了一个简单的测试,通过一个非常不可能的巧合,我测试了一个版权符号,看看它是否被删除了。结果确实如此。起初,我以为我的系统中又有一个错误,但后来我在列表中查找了它,它确实被视为表情符号:

00A9 FE0F; Basic_Emoji;版权# E0.6 [1] (©️)
00AE FE0F; Basic_Emoji;注册# E0.6 [1] (®️)
203C FE0F; Basic_Emoji;双感叹号# E0.6 [1] (‼️)
2122 FE0F; Basic_Emoji;商标# E0.6 [1] (™️)

来源:https://www.unicode.org/Public/emoji/13.1/emoji-sequences.txt

全部其余的(数千个!)都是有意义的,除了这 3-4 个(“!!”对我来说是一个灰色区域)。

他们怎么会正式将“版权”、“注册商标”和“商标”符号视为表情符号呢?它们不是非常正式,而且在各种“重要业务”和学术论文中很常用吗?不是一个疯狂的彩色笑脸吗?

答案1

Unicode 中大多数看似“愚蠢”的东西之所以存在,只是因为它们在其他编码中存在过。Unicode 的设计使得往返转换旧的编码是可能的,所以你会看到像Nj、Dž、Ⅷ、㎉、㎓、﷽这样的“字符”的代码点……因为有些人认为这些对他们国家的文本很有用

统一码有一个原则,即与较旧的标准化遗留编码具有双向兼容性,因此将文档转换为 Unicode 不会丢失信息;它们可以转换回来。为了实现这一点,Unicode 兼容字符已经推出。

https://en.wikipedia.org/wiki/Round-trip_format_conversion#Character_encodings

表情符号也一样。你可以检查表情符号来源了解为什么 Unicode 中添加了表情符号

该文件一方面提供了 Unicode 代码点和序列之间的历史映射,另一方面Shift-JIS另一方面,手机运营商符号的代码。对于等效的 Unicode 和运营商符号或序列,每个映射都是对称的(“往返”)。

该文件包含 4 个字段

  • 0:Unicode 代码点或序列
  • 1:DoCoMo Shift-JIS 代码
  • 2:KDDI Shift-JIS 代码
  • 3:SoftBank Shift-JIS 代码

您可以看到 © U+00A9、®️ U+00AE、‼️ U+203C 和 ™ U+2122 都在列表中

00A9;F9D6;F774;F7EE
00AE;F9DB;F775;F7EF
...
203C;F9A9;F3F1;
...
2122;F9D7;F76A;FBD7

所以答案很简单,因为它们已被日本手机运营商用作表情符号。这些运营商添加 ©、®️、‼️ 和 ™ 表情符号的原因则是另一个问题

相关内容