我怎样才能找出这个损坏的中文文本的编码，以便在线工具能够正确修复它？

Question 1

损坏的文本´ÓºÜ¾ÃÒÔÇ°¿ªÊ¼长度为 14 个字符。由于正确的简体中文文本从很久以前开始长度为 7 个字符，这立即表明每个简体中文字符可能对应于损坏文本中的两个字符。

损坏的文本中的字符在UTF-16中具有以下十六进制等价物（并且也具有OP中所示的cp936）：

´ => b4
Ó => d3
º => ba
Ü => dc
¾ => be
Ã => c3
Ò => d2
Ô => d4
Ç => c7
° => b0
¿ => bf
ª => aa
Ê => ca
¼ => bc

我使用一个简单的 Java 程序完成了这个翻译，但是可以做同样事情的在线网站：

因此，Mandarin Tool 所需要做的就是将前两个损坏字符的十六进制值组合起来，以使用 CP 936 获取第一个简体中文字符，依此类推：

´ + Ó => b4 + d3 => b4d3 => 从
º + Ü => ba + dc => badc => 很
¾ + Ã => be + c3 => bec3 => 久
Ò + Ô => d2 + d4 => d2d4 => 以
Ç + ° => c7 + b0 => c7b0 => 前
¿ + ª => bf + aa => bfaa => 开
Ê + ¼ => ca + bc => cabc => 始

据推测，普通话工具可以验证损坏的文本的转换确实会产生有效的简体中文文本。

然后可以将每个简体中文 cp936 值映射到其 Unicode 代码点。例如，从=0xB4D3= 代码点0x4ECE。一旦您有了 Unicode 代码点，您就可以转换为您想要的任何编码（cp936、GB 18030、UTF-16 等）。

您的问题中，我不清楚的一点是第一个列表，它显示了每个简体中文字符（例如c2b4 c393 从）的 32 位表示。这看起来不对，因为字符的代码点（例如的 0x4ECE 从）和它的 32 位表示是同一个东西。还是我误解了什么？

Answer

损坏的文本´ÓºÜ¾ÃÒÔÇ°¿ªÊ¼长度为 14 个字符。由于正确的简体中文文本从很久以前开始长度为 7 个字符，这立即表明每个简体中文字符可能对应于损坏文本中的两个字符。