以前可以正确显示 unicode 的网站现在无法正常显示了

Question 1

文本是双重编码UTF-8。也就是说，UTF-8 数据被误解为旧式单字节编码之一（可能是 Windows-1252），然后再次从该编码转换为 UTF-8。（例如，記UTF-8 中表示的相同字节也表示è¨˜在 Windows-1252 中，并且这三个字符再次存储为 UTF-8。）

换句话说，这是网站管理员的错误。（实际上，我的猜测是他们升级了 MySQL 数据库服务器，因为当前版本处理 UTF-8 Unicode 字符串，而网站时代的 MySQL 4.x 过去处理“latin1”，这或多或少是原始字节值。这方面的一些证据是，侧边栏链接-közi-显示不是双重编码，手写的艺术家页面也不是。在 MySQL 中，可以在数据库端、PHP 客户端甚至每个连接上设置编码；它是好简单最终导致不匹配并获取双重编码的文本，尤其是在较旧的 MySQL 配置中。）

浏览器通常不具备处理此类损坏的任何功能；据它们所知，字符集声明 100% 正确，输入数据错误。扩展或“用户脚本”（GreaseMonkey 样式）可能有效；您也可能能够从本地保存的页面中恢复文本。

恢复文本的大致过程如下：

获取原始 HTML。
将其传递给iconv其他编码转换器，指定 UTF-8 作为输入并指定 Windows-1252（或其他候选旧式代码页）作为输出。
输出现在应该是常规的 UTF-8。

在这种情况下，常规的 iconv 有点过于严格，Python 的 cp1252 编码也是如此，因为它们都拒绝使用 cp1252 中“未定义”的字符槽（例如将 U+0081 转换回字节 0x81），因此编码器需要稍微定制一下：

#!/bin/python3
import argparse
import codecs
import encodings.cp1252

# Patch Python runtime to replace U+FFFE ("undefined" indicator) with
# direct mappings to byte values, e.g. so that U+0081 becomes \x81
# instead of reporting an error.
tab = encodings.cp1252.decoding_table
tab = [tab[i].replace("\uFFFE", chr(i)) for i in range(256)]
tab = "".join(tab)
encodings.cp1252.decoding_table = tab
encodings.cp1252.encoding_table = codecs.charmap_build(tab)

parser = argparse.ArgumentParser()
parser.add_argument("file", nargs="+")
args = parser.parse_args()

for arg in args.file:
    print("Processing:", arg)

    with open(arg, "rb") as fh:
        buf = fh.read()

    # Undo double-encoding; the result of encode(cp1252) will
    # actually be normal UTF-8.
    buf = buf.decode("utf-8").encode("cp1252")

    with open(arg + ".fixed", "wb") as fh:
        fh.write(buf)

请注意，这会损坏-közi-侧边栏链接，因为它根本没有经过双重编码。

该网站使用了我从这篇 webhint.io 文章中了解到的过时的字符集声明方法

该网站使用的方法完全适合其编写的时代。它并不完全“过时”，只是“不再是最方便的选择”，但仍然 100% 支持——与其余的部分页面的 HTML 4.01 标记（而文章讨论的是 HTML 5）。

无论如何，声明都是正确的；HTML 确实是用 UTF-8 编码的。它是什么采用 UTF-8 编码，这是实际的问题。

Answer

文本是双重编码UTF-8。也就是说，UTF-8 数据被误解为旧式单字节编码之一（可能是 Windows-1252），然后再次从该编码转换为 UTF-8。（例如，記UTF-8 中表示的相同字节也表示è¨˜在 Windows-1252 中，并且这三个字符再次存储为 UTF-8。）