我在使用 InnoDB 连接数据库从属时遇到间歇性问题。间歇性地,我的连接时间超过 2 秒。这些服务器托管在 Amazon 的 EC2 上。
应用服务器是运行在 Ubuntu 上的 PHP 5.2/Apache。DB 从属服务器在 Ubuntu 9.10 上运行 Percona 的 XtraDB 5.1。它使用 EBS Raid 阵列进行数据存储。
我们已经使用跳过名称解析并绑定到地址 0.0.0.0。
这是失败的 PHP 代码的存根
$tmp = mysqli_init(); $start_time = 微时间(true); $tmp->选项(MYSQLI_OPT_CONNECT_TIMEOUT,2); $tmp->real_connect($DB_SERVERS[$server]['服务器'], $DB_SERVERS[$服务器]['用户名'], $DB_SERVERS[$服务器]['密码'], $DB_SERVERS[$server]['架构'], $DB_SERVERS[$服务器]['端口']); 如果(mysqli_connect_errno()){ $timer = microtime(true) - $start_time; mail($errors_to,'DB连接错误',$timer); }
DB 服务器上有超过 300Mb 可用于新连接,服务器远未达到允许的最大连接数(1,200 个中的 60 个)。在 4 核 m1.xlarge 实例上,两台服务器的负载均小于 2。
mysql 配置的一些亮点
最大连接数 = 1200 线程堆栈 = 512K 线程缓存大小 = 1024 线程并发 = 16 每表一个文件 innodb_additional_mem_pool_size = 16M innodb_buffer_pool_size = 13G
任何有关追踪速度减慢根源的帮助都将不胜感激。
[编辑]我一直在更新网络的 sysctl 值,但它们似乎没有解决问题。我在数据库和应用程序服务器上都做了以下调整。
net.ipv4.tcp_window_scaling = 1 net.ipv4.tcp_sack = 0 net.ipv4.tcp_timestamps = 0 net.ipv4.tcp_fin_timeout = 20 net.ipv4.tcp_keepalive_time = 180 net.ipv4.tcp_max_syn_backlog = 1280 net.ipv4.tcp_synack_retries = 1 net.core.rmem_max = 16777216 net.core.wmem_max = 16777216 net.ipv4.tcp_rmem = 4096 87380 16777216 net.ipv4.tcp_wmem = 4096 87380 16777216
[编辑]根据 jaimieb 的建议,我添加了一些跟踪并使用时间捕获了以下数据。此服务器在一天中的这个时间处理大约 51 个查询/秒。在下面概述的 3 分钟窗口内,连接错误出现过一次(在 13:06:36)。由于有 1 次失败和大约 9,200 次成功连接,我认为这不会在报告方面产生任何有意义的结果。
脚本:
日期 >> /root/database_server.txt (时间 mysql -h 数据库服务器 -D 模式名称 -u appuser -p apppassword -e '')> /dev/null 2>> /root/database_server.txt
结果:
=== 应用服务器 1 === 2010 年 2 月 22 日星期一 13:05:01 EST 实际 0分0.008秒 用户 0分0.001秒 系统 0 分 0.000 秒 2010 年 2 月 22 日星期一 13:06:01 EST 实际 0分0.007秒 用户 0分0.002秒 系统 0 分 0.000 秒 2010 年 2 月 22 日星期一 13:07:01 EST 实际 0分0.008秒 用户 0分0.000秒 系统 0分0.001秒 === 应用服务器 2 === 2010 年 2 月 22 日星期一 13:05:01 EST 实际 0分0.009秒 用户 0分0.000秒 系统 0分0.002秒 2010 年 2 月 22 日星期一 13:06:01 EST 实际 0分0.009秒 用户 0分0.001秒 系统 0分0.003秒 2010 年 2 月 22 日星期一 13:07:01 EST 实际 0分0.008秒 用户 0分0.000秒 系统 0分0.001秒 === 数据库服务器 === 2010 年 2 月 22 日星期一 13:05:01 EST 实际 0分0.016秒 用户 0分0.000秒 系统 0分0.010秒 2010 年 2 月 22 日星期一 13:06:01 EST 实际 0分0.006秒 用户 0分0.010秒 系统 0 分 0.000 秒 2010 年 2 月 22 日星期一 13:07:01 EST 实际 0分0.016秒 用户 0分0.000秒 系统 0分0.010秒
[编辑]根据 LinkedIn 问题中收到的建议,我尝试将 back_log 值设置得更高。我们一直使用默认值 (50),并将其增加到 150。我们还将应用程序和数据库服务器上的内核值 /proc/sys/net/core/somaxconn(最大套接字连接数)从默认值 128 增加到 256。结果,我们确实看到处理器利用率有所提高,但仍然收到连接超时。
答案1
如果从等式中消除 PHP,效果会如何?使用 CLI mysql 客户端连接到服务器。从数据库服务器本身和应用服务器尝试:
time mysql -h localhost -D dbname -u username -ppassword -e ''
答案2
检查你的 DNS 服务器,我认为 mysql 可能正在尝试解析连接主机的反向 DNS。还要确保 /etc/hosts 是正常的并且有“127.0.0.1 localhost”
答案3
这可能还不够,但你可能在等待刷新到磁盘?也许超时了?
请记住,如果发生故障,您可能会丢失最多 1 分钟的数据。
innodb_flush_log_at_trx_commit = 0(默认为 1)
这将导致 InnoDB 每秒仅写入和刷新日志缓冲区一次。: http://dev.mysql.com/doc/refman/5.0/en/innodb-parameters.html#sysvar_innodb_flush_log_at_trx_commit