Unicode 兼容的梵文字体

Unicode 兼容的梵文字体

上次我检查时,以下 URL 上的页面可以正确呈现。

http://www.cfilt.iitb.ac.in/marathi_Corpus/aesthetics/literatureBio_and_autobio/ahe_manohar_tari/BA00B005-1112_utf.txt

现在全部显示垃圾,例如......

¤¾à¤¤à¤¾à¤–ाली मदतीला कà¥à¤£à¥€ नाहीच, आणि तà¥à¤¯à¤¾à¤¤ सेपाकाला येणाऱà¥à¤¯à¤¾ पोरीनेही ""पोट

我如何在(任何)浏览器中正确读取它?

答案1

莫吉巴克

Mojibake […] 是使用非预期的字符编码对文本进行解码而产生的乱码文本。其结果是系统性地用完全不相关的符号替换符号,这些符号通常来自不同的书写系统。

[…]

由于缺少字体或字体中缺少字形而导致的字形渲染失败是另一个问题,不要与 mojibake 混淆。

[…]

如果未指定编码,则由软件通过其他方式决定。根据软件的类型,典型的解决方案是配置或字符集检测启发式方法。在并不罕见的情况下,这两种方法都容易出现错误预测。

您链接到的文本文件强制浏览器猜测编码。您的浏览器猜错了。当以 Unicode (UTF-8) 格式查看时,文件应该看起来正确。您的浏览器可能支持正确呈现文件所需的所有字形,问题不在于字体。

浏览器可能会提供或不提供更改编码的选项。我认为 Chromium 删除了此选项是因为使用率低,但扩大在 Firefox 中:打开菜单 →更多的文本编码统一码

如果出于某种原因您的浏览器不允许您执行此操作,请尝试在浏览器之外查看文件。按原样保存文件(使用浏览器、curlwget任何能够从给定 URL 下载的软件),然后使用能够解释 UTF-8 的文本编辑器打开它,并在必要时强制使用正确的编码(例如在 Notepad++ 中:(菜单)格式使用 UTF-8 编码)。

相关内容