od 如何处理 `\x7f` 之后的符号?

od 如何处理 `\x7f` 之后的符号?

以下命令传递给od符号 from \x00to \xff

$ seq 0 255 | awk '{printf("%c", $0)}' | od -c

但我得到的是:

0000000  \0 001 002 003 004 005 006  \a  \b  \t  \n  \v  \f  \r 016 017
0000020 020 021 022 023 024 025 026 027 030 031 032 033 034 035 036 037
0000040       !   "   #   $   %   &   '   (   )   *   +   ,   -   .   /
0000060   0   1   2   3   4   5   6   7   8   9   :   ;   <   =   >   ?
0000100   @   A   B   C   D   E   F   G   H   I   J   K   L   M   N   O
0000120   P   Q   R   S   T   U   V   W   X   Y   Z   [   \   ]   ^   _
0000140   `   a   b   c   d   e   f   g   h   i   j   k   l   m   n   o
0000160   p   q   r   s   t   u   v   w   x   y   z   {   |   }   ~ 177
0000200 302 200 302 201 302 202 302 203 302 204 302 205 302 206 302 207
0000220 302 210 302 211 302 212 302 213 302 214 302 215 302 216 302 217
0000240 302 220 302 221 302 222 302 223 302 224 302 225 302 226 302 227
0000260 302 230 302 231 302 232 302 233 302 234 302 235 302 236 302 237
0000300 302 240 302 241 302 242 302 243 302 244 302 245 302 246 302 247
0000320 302 250 302 251 302 252 302 253 302 254 302 255 302 256 302 257
0000340 302 260 302 261 302 262 302 263 302 264 302 265 302 266 302 267
0000360 302 270 302 271 302 272 302 273 302 274 302 275 302 276 302 277
0000400 303 200 303 201 303 202 303 203 303 204 303 205 303 206 303 207
0000420 303 210 303 211 303 212 303 213 303 214 303 215 303 216 303 217
0000440 303 220 303 221 303 222 303 223 303 224 303 225 303 226 303 227
0000460 303 230 303 231 303 232 303 233 303 234 303 235 303 236 303 237
0000500 303 240 303 241 303 242 303 243 303 244 303 245 303 246 303 247
0000520 303 250 303 251 303 252 303 253 303 254 303 255 303 256 303 257
0000540 303 260 303 261 303 262 303 263 303 264 303 265 303 266 303 267
0000560 303 270 303 271 303 272 303 273 303 274 303 275 303 276 303 277
0000600

之后的字符有什么问题\x7f吗?

答案1

根据awk实现,printf("%c", n)输出字节值n或代码点为 的字符n

如果语言环境的字符集是 UTF-8(请参阅 的输出locale charmap),则对于值 0 到 127 会产生相同的结果(其中字符 U+0000 到 U+007f 的编码是字节值 0 到 0x7f)。

awk但对于超过 127 的任何内容,您都会获得第一类别中的实现的相应字节值(截断为 8 位) ,或者其他类别的实现的 UTF-8 编码(至少是 GNU awk,可能是您正在使用的)。

gawk 'BEGIN{printf "%c", 8364}'

(8364 为 0x20AC)打印欧元符号 (U+20AC),在 UTF-8 中编码为 0xe2 0x82 0xac,而

mawk 'BEGIN{printf "%c", 8364}'

打印 0xAC 字节(这是 UTF-8 中无字符的编码,这是无效文本,您的终端可能会将其呈现为,替换字符)。

注意代码点这里通常是多字节字符集的 Unicode 代码点,以及单字节字符集的字符集值(即字节值)。在使用 iso8859-15 字符集的语言环境中,欧元符号的代码点为 0xA4(不是 0x20AC),printf("%c", 0xA4)无论实现如何,都会打印欧元符号(字节值 0xA4)awk

因此,如果您想按值打印字节(值从 1 到 255,并非所有awk实现都可以正常工作为 0),请使用:

LC_ALL=C awk 'BEGIN{printf "%c", value}'

C 语言环境的字符集保证是单字节的,并且每个系统都有一个 C 语言环境。

您还可以使用:

printf '\200'

(这里字节值以八进制表示)。一些printf实现还支持十六进制:

printf '\x80'

一些printf实现还支持:

printf '\u20ac'

根据其 Unicode 代码点(通常在区域设置的字符集中)打印字符(因此在 iso8859-15 区域设置中为 0xA4,在 UTF-8 区域设置中为 0xe2 0x82 0xac,以及在字符集没有欧元符号的区域设置中的各种不同行为),尽管有些人喜欢以 UTF-8 编码printf的内置ksh93输出,无论语言环境的字符集如何)。

相关内容