我在使用 UTF8 格式的网页中的某些字符时经常遇到一些问题。
我正在运行 MySQL 5.7 和 Debian 9。我的数据库正在使用utf8
字符集。
今天,在调试MySQL查询时,我运行SHOW WARNINGS;
并在Message字段中看到:
Incorrect string value: '\xF0\x9D\x8C\x86' for column `xxxx`;
怎么了?
答案1
最终,通过谷歌搜索该错误,我发现了几篇文章表明 MySQL 中的utf8
字符集有问题/大脑损坏,不应该使用。
在它的替换中,应该使用utf8mb4
字符集代替。
从在 MySQL 中,切勿使用“utf8”。使用“utf8mb4”
MySQL 的“utf8”不是 UTF-8。
“utf8”编码仅支持每个字符三个字节。真正的 UTF-8 编码(每个人都使用,包括您在内)每个字符最多需要四个字节。
MySQL 开发人员从未修复过这个错误。他们在 2010 年发布了一个解决方法:一个名为“utf8mb4”的新字符集。
简而言之:
- MySQL 的“utf8mb4”表示“UTF-8”。
- MySQL 的“utf8”意思是“专有字符编码”。此编码无法对许多 Unicode 字符进行编码。我将在这里做一个笼统的声明:当前使用“utf8”的所有 MySQL 和 MariaDB 用户实际上应该使用“utf8mb4”。没有人应该使用“utf8”。
结果 MySQL 的 utf8 字符集仅部分实现了正确的 UTF-8 编码。它只能存储由一到三个字节组成的UTF-8编码符号;不支持占用四个字节的编码符号。
如上所示,这种行为可能会导致数据丢失,但情况会变得更糟 - 它可能会导致安全漏洞。以下是一些示例,所有这些示例都是在发表本文后发现的:
- WordPress < 3.6.1 中的 PHP 对象注入漏洞,导致与某些 WordPress 插件结合远程执行代码
- Phabricator 中的电子邮件身份验证绕过 WordPress 4.1.2 中存储的 XSS
- Joomla! 中的远程命令执行内容管理系统
TL;DR MySQL 的
utf8
编码命名很尴尬,因为它与正确的 UTF-8 编码不同。它不提供完整的 Unicode 支持,这可能会导致数据丢失或安全漏洞。