我继承了大量声称使用 utf-8 编码的 Web 内容,但在显示页面时出现的随机乱码显然表明它们是某种 Windows 编码。我已使用该命令iconv -f Windows-1252 -t utf-8 *19* -o test.htm
更改了一个文件,现在我看到了有意义的有效字符,但在每个字符前面都有一个带有脱字符的大写字母“A”。检查二进制数据显示所有特殊字符都是十六进制对,例如 C292 或 C297。是否有一些使用 C2 作为转义的 Windows 字符集,而我想要在 iconv 命令中使用与 Windows-1252 不同的字符集?
答案1
我感觉这些文件是有人使用 utf-8 转义序列嵌入 Windows 字符而生成的,好像这很有意义一样。
执行上述 iconv 命令,然后执行 sed 命令,简单地消除转换后文件中留下的 0xc2 个字符,所创建的文件现在似乎显示正确。
我确实扫描了可能存在的合法“”实例,但我很确定根本没有任何重音字符。