将 UTF-8 字符转换为其扩展 ASCII 码

将 UTF-8 字符转换为其扩展 ASCII 码

我有一个包含 Unicode 字符的文件,我正在尝试转换特定字符,例如这些黑色字符在 notepad++ 中获取它们的 ASCII 值。

例如,在图片中我有 DCS 字符,我想要获取它的值:ASCII 中的 144(在此表中:https://www.ascii-code.com/

如果有办法使用这种语言进行编程,我就会用 C++ 进行编程,但也接受其他选择。

答案1

我已更正了您的问题标题,因为 UTC-8 是洛杉矶的时区。我认为这是打字错误。

简而言之 - 与转换无关。只需使用 Notepad++ Hex-Editor 查看十六进制值,并在必要时查找您提到的表中的整数值。

UTF-8 是Unicode 转换格式将 Unicode“代码点”或十六进制整数转换为特定的字节序列。UTF-16 和 UTF-32 是其他转换格式;数字“8”、“16”和“32”指的是每个单位或字节的位数。对于由 7 位 ASCII 字符代码表示的字符,UTF-8 表示与 ASCII 完全相同,允许透明的往返迁移。其他 Unicode 字符在 UTF-8 中由最多 6 个字节的序列表示,但大多数西欧字符只需要 2 个字节。

请记住,ASCII 7 位最多可达 int 127,扩展 8 位最多可达 int 255,例如控制字符的不同位置。例如在 UTF-8 中也DC2仅为 0x12 和DC30x13 一个字节(见下面的屏幕截图)。

作为示例,标记了文本和十六进制编辑器中的表示。DCS(设备控制字符串)以两个字节(0xC2 0x90)用 UTF-8 编码。如上所述,DC2只有一个字节!

在此处输入图片描述

相关内容