阿拉伯语/乌尔都语文本乱码

阿拉伯语/乌尔都语文本乱码

我已经在 notepad++ 中创建了一个文件,将其编码转换为 Characterset->Arabic->ISO-8859-6

并复制粘贴了一些阿拉伯语文本,然后关闭了该文件。

但是当我重新打开它时,所有的文本都变成了一些奇怪的字符,如下所示:

没有人能想象生活会变得如此糟糕

我也用微软 Word 打开了该文件,并选择了编码“阿拉伯语(Windows)”,但它也不起作用。

我真的需要这些数据。如果有人能告诉我如何恢复正确的文本,我将不胜感激。

答案1

该文件没有被加密。它只是采用 ISO-8859-6 编码,Notepad++ 无法它,尽管它写道它。Notepad++ 只能处理少数几种编码;设置编码的大菜单仅用于输出。

Microsoft Word 可以读取该文件,但打开时需要指定编码为阿拉伯语 (ISO)。这意味着 ISO-8859-6,它与 Windows 阿拉伯语编码 windows-1256 不同。

或者,您可以在 Notepad++ 中编辑该文件并在开头添加以下几行:

<!doctype html>
<title>Test</title>
<meta charset=iso-8859-6>

然后将其保存为 .html 扩展名并在网络浏览器中打开。现在您应该可以看到阿拉伯语文本,您可以复制并粘贴它。

另外一种选择是,下载并安装BabelPad编辑器。其“打开”命令允许您选择要打开的文件的编码,其中 ISO-8859-6 是备选编码之一。

注意:文件开头可能会出现三个奇怪的字符,即 UTF-8 编码的字节顺序标记 (BOM),这是文件的写入方式导致的。这反映了 Notepad++ 的缺陷。

一般情况下,如果可能的话,最好始终使用 UTF-8。这样虽然浪费了一些字节,但却省去了麻烦。

相关内容