MySQL Slave 卡在单个 bin 日志 + bin 日志位置上超过 17 个小时

Question

从昨天开始，我进行的大量查询交易就走在了正确的轨道上。

迁移数据后，我在原始表上执行了 DELETE 语句，以删除已迁移的行。

这些表只是充满了跟踪数据，因此没有任何主键或唯一键。

由于基于 ROW 的复制的工作方式，从属服务器不会执行与主服务器相同的 DELETE 语句，而是为每一行执行一个 DELETE 语句，最终看起来像这样：

DELETE FROM table WHERE colA=foo AND colB=bar AND colC=baz....etc

并且，由于没有与该查询匹配的索引，单线程复制 SQL 线程执行了 4000 万 + 删除语句（或...正在尝试执行），这需要很长时间才能运行，因为必须进行所有扫描才能识别每一行（当时表的大小约为 8000 万行）。

最后，我通过停止从属线程（STOP SLAVE）、跳过单个从属事务（SET GLOBAL sql_slave_skip_counter = 1;）、然后重新启动从属线程（START SLAVE）来解决这个问题。

这导致我的主服务器和从服务器在有问题的表上不同步 - 但我能够利用基于行的复制的性质通过在主服务器上执行以下操作使其重新同步：

mysql> CREATE TABLE table_tmp; -- with the same schema as 'table' (SHOW CREATE TABLE table;)
mysql> RENAME TABLE table TO table_bak, table_tmp TO table;
mysql> INSERT INTO table ( SELECT * FROM table_bak );
mysql> DROP TABLE table_bak;

由于 DELETE 是在主服务器上执行的，因此此处的 INSERT 仅插入了我想要保留的记录（已删除的记录已消失）。而且，由于基于行的复制会单独插入每一行，而不是执行相同的 INSERT INTO...SELECT 语句，因此从属表仅填充了所需的数据。然后，后续的 DROP TABLE 语句会删除从属服务器上的表，而无需单独处理每一行。

需要注意的是，由于主表版本仍然有 3000 万到 4000 万行...INSERT 和随之而来的复制最终会锁定你的从属服务器一小会儿（重复上述问题），但由于 mysql 不必扫描数据库以查找要删除的行，因此停顿时间要短得多（最终约为 20 分钟）。

我希望这篇文章将来能对某人有所帮助。抱歉，这篇文章有些冗长，希望它能提供信息并有所帮助。

Answer 1