MySQL:字符串值不正确

MySQL:字符串值不正确

我在使用 UTF8 格式的网页中的某些字符时经常遇到一些问题。

我正在运行 MySQL 5.7 和 Debian 9。我的数据库正在使用utf8字符集。

今天,在调试MySQL查询时,我运行SHOW WARNINGS;并在Message字段中看到:

 Incorrect string value: '\xF0\x9D\x8C\x86' for column `xxxx`;

怎么了?

答案1

最终,通过谷歌搜索该错误,我发现了几篇文章表明 MySQL 中的utf8字符集有问题/大脑损坏,不应该使用。

在它的替换中,应该使用utf8mb4字符集代替。

在 MySQL 中,切勿使用“utf8”。使用“utf8mb4”

MySQL 的“utf8”不是 UTF-8。

“utf8”编码仅支持每个字符三个字节。真正的 UTF-8 编码(每个人都使用,包括您在内)每个字符最多需要四个字节。

MySQL 开发人员从未修复过这个错误。他们在 2010 年发布了一个解决方法:一个名为“utf8mb4”的新字符集。

简而言之:
- MySQL 的“utf8mb4”表示“UTF-8”。
- MySQL 的“utf8”意思是“专有字符编码”。此编码无法对许多 Unicode 字符进行编码。

我将在这里做一个笼统的声明:当前使用“utf8”的所有 MySQL 和 MariaDB 用户实际上应该使用“utf8mb4”。没有人应该使用“utf8”。

如何在 MySQL 数据库中支持完整的 Unicode

结果 MySQL 的 utf8 字符集仅部分实现了正确的 UTF-8 编码。它只能存储由一到三个字节组成的UTF-8编码符号;不支持占用四个字节的编码符号。

如上所示,这种行为可能会导致数据丢失,但情况会变得更糟 - 它可能会导致安全漏洞。以下是一些示例,所有这些示例都是在发表本文后发现的:

  • WordPress < 3.6.1 中的 PHP 对象注入漏洞,导致与某些 WordPress 插件结合远程执行代码
  • Phabricator 中的电子邮件身份验证绕过 WordPress 4.1.2 中存储的 XSS
  • Joomla! 中的远程命令执行内容管理系统

TL;DR MySQL 的utf8编码命名很尴尬,因为它与正确的 UTF-8 编码不同。它不提供完整的 Unicode 支持,这可能会导致数据丢失或安全漏洞。

相关内容