修复系统崩溃后损坏的 Unicode 文本文件

Question

看起来它可能使用了错误的编码（KO18？）读取，导致波斯语代码点值被读取为西里尔文，然后使用西里尔文的 UTF8 编码保存，

EF BB BF   - Byte Order Mark 0xFEFF in UTF-8 encoding


D0 B3   - Common Cyrillic characters in UTF8 start with D0, D1 or D2
D0 A3 
D0 9A 
D0 B4 
D0 9F 
20      - Space character
D0 9F 
D0 A1 
D0 98 
D0 97

如果您知道前几个单词的阿拉伯字符是什么，您可能能够推断出逆转错误重新编码所需的数字转换。当然，并非所有转换都是可逆的。

我不懂阿拉伯语/波斯语，所以我不知道什么样的转换会产生合理的文本。

例如，将 D0s 更改为 D8 会改变

盖茨比

到

سأؚش؟更多

谷歌翻译成

我会回来的？什么？

但我不知道这是否是胡说八道。这看起来确实很荒谬。

花一些时间以类似的方式进行尝试可能会找到解决方案。

Answer 1