在 gedit 中打开以 UTF-16 编码的 UTF-8 文件,结果为可读的中文

在 gedit 中打开以 UTF-16 编码的 UTF-8 文件,结果为可读的中文

我知道这并不是什么问题,但我真的很好奇为什么会发生这种情况。

如何重现此现象

打开 gedit 并输入一些内容(我使用了来自 lipsum.com 的 Lorem Ipsum 文本)。保存文件并关闭 gedit。

重新打开它,点击“打开”,然后点击“其他文档...”。点击你刚刚创建的文件。单击打开之前,请单击字符编码并选择UTF-16。

文件打开后,编辑器中会显示一些中文,其中还混杂着一些随机的无法显示的 Unicode 字符。现在,真正奇怪的部分开始了:打开 Google 翻译,然后粘贴中文。确保选择“中文”作为语言。

根据文本的不同,您几乎总能在某处看到一些可理解的(甚至是正常的)英语。就我而言,我看到的是:“如需更多信息,请访问我们的网站:www.globalcouncil.org”,以及“这是您第一次来这个地区看望我们。欢迎您访问我们的网站。”在 Pastebin 上查看全文。

其他观察

  • 使用 freetranslation.com 网站翻译文本时,部分文本会反转显示,如下所示:“图像⁥宏瑡桴礠樠与狩猎⁴慭且价格为礠楬挠宏Ɱ挠一个常用短语
  • 这段文字反转之后,其实和我在编码为UTF-8时输入的原文是一样的。
  • 反转的文本似乎也像实际上向后一样;当我在文本末尾输入某些内容时,它会出现在开头。
  • 有些句子听起来很正常(有时还很有趣),似乎这不是翻译软件的怪癖,例如:“汤不能用于治疗急性或慢性阻塞性肺病。” 这不在我输入的原文中。
  • 我发现LinuxQuestions 上的这个问题,通过谷歌翻译重现了这一现象。以下是一些可以理解的英语:“这是一个你可以找到你喜欢的碗和碗的地方。”

问题

为什么会发生这种情况?为什么生成的句子听起来如此逼真?这是 gedit 的怪癖还是翻译器的怪癖?(如果有一位以中文为母语的人能给我提点意见就好了。)

这是我在 Super User 上的第一个问题,所以请不要太苛刻。提前谢谢您。

答案1

作为一个中文使用者,我可以告诉你一个事实,那些汉字都是无效的、随机的垃圾(抱歉打扰了)。问题出现在这里:

现在,真正奇怪的部分开始了:打开谷歌翻译,然后粘贴中文。确保选择“中文”作为语言

谷歌翻译中文<>英文并不像看上去那么可靠。由于中文和英文的语言结构完全不同,谷歌目前还没有非常准确的中文到英文/英文到中文的翻译。举个例子。

图像⁥宏瑡桴礠樠与狩猎⁴慭和价格是礠楬 挠宏Ɱ 挠一个常用短语

上面这些中文单词,根本就没有任何意义。但是谷歌翻译认为你确实粘贴了一些有用的东西,所以它会随机地将数据库中的单词连接起来。

我们把这两个“挠楬”去掉,从长远来看,它们可能有细微的联系。

“郭”可以浇花“郭水”

而“楬”可以是某种树。所以“挠楬”可能就是在浇灌某种树(尽管我们从来没有像上面描述的那样把中文单词连在一起使用)

但谷歌翻译是“挠楬意味着灵活性”

是的...问题只是谷歌翻译不好,仅此而已。

对于这一点:

“欲了解更多信息,请访问我们的网站:www.globalcouncil.org”,以及“这是您第一次来这个地区看望我们。欢迎您访问我们的网站。”

我怀疑您不小心将这段文字与中文一起复制了。

对于整个向后的单词,我认为 wizzwizz4 已经为您提供了解决方案

相关内容