¢tRÂà³Ab.Ÿân TXT 文件:如何将奇怪的字符恢复正常?

¢tRÂà³Ab.Ÿân TXT 文件:如何将奇怪的字符恢复正常?

所以,我在闪存驱动器上有一个用西里尔文生成的 txt 文件(我自己的工作,自己的 U 盘),已经有几年了。现在我需要打开它,却只看到这种混乱:

混乱

我想知道为什么会发生这种情况,我该如何恢复正常。我尝试以 Unicode 和 UTF-8 编码保存它,甚至以某种 MS-DOS 格式(Wordpad 的一个选项)保存它,但没有任何区别。

答案1

你所看到的被称为莫吉巴克简而言之,您用来打开文件的应用程序尝试读取文件时使用了错误的编码。标准修复方法是使用转码工具(在线或离线均可)(尽管我知道没有适用于 Windows 的免费离线工具),或者在允许您设置编码的应用程序中打开文档并通过该应用程序将其保存为所需的编码。

作为一个有点 hack 的替代方案,如果你可以保存文件没有修改编码,可以将扩展名更改为.eml将其格式化为电子邮件消息,确保Content-Type标题指定了正确的编码,然后在良好的电子邮件客户端(几乎任何除 Outlook 或 Windows Mail 之外的客户端)中打开生成的文件并将文本从中复制到文本编辑器并保存。

以供将来参考,避免这种情况的普遍接受的方法是将文件保存为 UTF-8 或 UTF-16(通常首选 UTF-8,因为除 Windows 之外的大多数平台都比 UTF-16 更好地支持它)。

具体来说,您的文件确实看起来是使用 KOI-8 编码的(根据文本是西里尔文的陈述和实际字符的明显分布确定),而应用程序显然将其解释为 ISO-8859-1 或 Windows 代码页 1252(仅根据正在显示的内容确定,再加上这些是许多设备的标准后备编码的事实)。

答案2

你可以尝试编辑器库达文本(或 SynWrite),免费。

  • 打开这个 txt 文件
  • 单击带有编码名称(例如 ANSI)的状态栏字段,“重新加载为”
  • 找到使文本正常的编码
  • 找到编码后,单击带有编码名称的状态栏字段“转换为”
  • 使用 UTF8
  • 使用 UTF8 保存文件

相关内容