有人给我发了一个文本文件。虽然我可以阅读文档的大部分内容,但有时会出现一些不寻常的字符。当我在 VIM 中打开它时,我看到它的位置上有 <92>。当我使用 gedit 时,我看到一个看起来像正方形的字符,正方形中有两个零以及 9 和 4。
有没有办法将这些有趣的字符解码回人类可读的对应字符?
我还在 shell 中运行了以下命令:
johncomputer> file --mime-encoding file.txt
johncomputer> file.txt: : utf-8
所以我认为它是 utf8 编码的。
哦,另外,这是一份文本文档,其中大多数字符都是可读的。只是一些(不是全部)重音字符显示得很奇怪。
答案1
您看到的 <92> 和 <94> 很可能是窗户-1252编码的“智能”(花括号)撇号和“智能”右双引号。当然,它们可以是任何东西,但在 UTF-8 中,这些字节不能“独立”出现,只能作为字符多字节表示中的第 2 个或更后面的字节出现,