我有一台专用的 mysql 数据库服务器,最近出现了一些性能问题,在正常负载下,服务器运行良好,然后突然间性能急剧下降。服务器不使用交换文件,服务器中有 12GB 的 RAM,足以满足其需求。
与我的托管公司的支持人员联系后,他们发现服务器中有一个 2GB DIMM 出现故障,并计划在明天早上更换它。
我的问题是,DIMM 故障是否会导致我所看到的性能问题,或者这只是巧合?
我担心他们明天会更换内存,但问题仍然存在,我仍然无法解释,所以我只是试着提前思考。
我之所以问这个问题,是因为服务器中有足够的 RAM,超过要求的 RAM 和仅仅缺少 2GB 就应该是一个问题,因此如果这个故障的 DIMM 导致了这些性能问题,那么操作系统肯定正在尝试访问故障的 DIMM,并因此导致速度变慢。这听起来像是一个可信的解释吗?
这是 DELLs omreport 程序对 RAM 的说明,请注意一个 dimm 处于“关键”状态
Memory Information
Health : Critical
Memory Operating Mode
Fail Over State : Inactive
Memory Operating Mode Configuration : Optimizer
Attributes of Memory Array(s)
Attributes : Location
Memory Array 1 : System Board or Motherboard
Attributes : Use
Memory Array 1 : System Memory
Attributes : Installed Capacity
Memory Array 1 : 12288 MB
Attributes : Maximum Capacity
Memory Array 1 : 196608 MB
Attributes : Slots Available
Memory Array 1 : 18
Attributes : Slots Used
Memory Array 1 : 6
Attributes : ECC Type
Memory Array 1 : Multibit ECC
Total of Memory Array(s)
Attributes : Total Installed Capacity
Value : 12288 MB
Attributes : Total Installed Capacity Available to the OS
Value : 12004 MB
Attributes : Total Maximum Capacity
Value : 196608 MB
Details of Memory Array 1
Index : 0
Status : Ok
Connector Name : DIMM_A1
Type : DDR3-Registered
Size : 2048 MB
Index : 1
Status : Ok
Connector Name : DIMM_A2
Type : DDR3-Registered
Size : 2048 MB
Index : 2
Status : Ok
Connector Name : DIMM_A3
Type : DDR3-Registered
Size : 2048 MB
Index : 3
Status : Critical
Connector Name : DIMM_B1
Type : DDR3-Registered
Size : 2048 MB
Index : 4
Status : Ok
Connector Name : DIMM_B2
Type : DDR3-Registered
Size : 2048 MB
Index : 5
Status : Ok
Connector Name : DIMM_B3
Type : DDR3-Registered
Size : 2048 MB
命令 free -m 显示,服务器似乎使用了超过 10GB 的 RAM,这表明它正在尝试使用 DIMM
total used free shared buffers cached
Mem: 12004 10766 1238 0 384 4809
-/+ buffers/cache: 5572 6432
Swap: 2047 0 2047
问题发生时的 iostat 输出
avg-cpu: %user %nice %system %iowait %steal %idle
52.82 0.00 11.01 0.00 0.00 36.17
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 47.00 0.00 576.00 0 576
sda1 0.00 0.00 0.00 0 0
sda2 1.00 0.00 32.00 0 32
sda3 0.00 0.00 0.00 0 0
sda4 0.00 0.00 0.00 0 0
sda5 46.00 0.00 544.00 0 544
avg-cpu: %user %nice %system %iowait %steal %idle
53.12 0.00 7.81 0.00 0.00 39.06
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 49.00 0.00 592.00 0 592
sda1 0.00 0.00 0.00 0 0
sda2 0.00 0.00 0.00 0 0
sda3 0.00 0.00 0.00 0 0
sda4 0.00 0.00 0.00 0 0
sda5 49.00 0.00 592.00 0 592
avg-cpu: %user %nice %system %iowait %steal %idle
56.09 0.00 7.43 0.37 0.00 36.10
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 232.00 0.00 64520.00 0 64520
sda1 0.00 0.00 0.00 0 0
sda2 159.00 0.00 63728.00 0 63728
sda3 0.00 0.00 0.00 0 0
sda4 0.00 0.00 0.00 0 0
sda5 73.00 0.00 792.00 0 792
avg-cpu: %user %nice %system %iowait %steal %idle
52.18 0.00 9.24 0.06 0.00 38.51
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 49.00 0.00 600.00 0 600
sda1 0.00 0.00 0.00 0 0
sda2 0.00 0.00 0.00 0 0
sda3 0.00 0.00 0.00 0 0
sda4 0.00 0.00 0.00 0 0
sda5 49.00 0.00 600.00 0 600
avg-cpu: %user %nice %system %iowait %steal %idle
54.82 0.00 8.64 0.00 0.00 36.55
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 100.00 0.00 2168.00 0 2168
sda1 0.00 0.00 0.00 0 0
sda2 0.00 0.00 0.00 0 0
sda3 0.00 0.00 0.00 0 0
sda4 0.00 0.00 0.00 0 0
sda5 100.00 0.00 2168.00 0 2168
avg-cpu: %user %nice %system %iowait %steal %idle
54.78 0.00 6.75 0.00 0.00 38.48
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 84.00 0.00 896.00 0 896
sda1 0.00 0.00 0.00 0 0
sda2 0.00 0.00 0.00 0 0
sda3 0.00 0.00 0.00 0 0
sda4 0.00 0.00 0.00 0 0
sda5 84.00 0.00 896.00 0 896
avg-cpu: %user %nice %system %iowait %steal %idle
54.34 0.00 7.31 0.00 0.00 38.35
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 81.00 0.00 840.00 0 840
sda1 0.00 0.00 0.00 0 0
sda2 0.00 0.00 0.00 0 0
sda3 0.00 0.00 0.00 0 0
sda4 0.00 0.00 0.00 0 0
sda5 81.00 0.00 840.00 0 840
avg-cpu: %user %nice %system %iowait %steal %idle
55.18 0.00 5.81 0.44 0.00 38.58
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 317.00 0.00 105632.00 0 105632
sda1 0.00 0.00 0.00 0 0
sda2 224.00 0.00 104672.00 0 104672
sda3 0.00 0.00 0.00 0 0
sda4 0.00 0.00 0.00 0 0
sda5 93.00 0.00 960.00 0 960
avg-cpu: %user %nice %system %iowait %steal %idle
55.38 0.00 7.63 0.00 0.00 36.98
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 74.00 0.00 800.00 0 800
sda1 0.00 0.00 0.00 0 0
sda2 0.00 0.00 0.00 0 0
sda3 0.00 0.00 0.00 0 0
sda4 0.00 0.00 0.00 0 0
sda5 74.00 0.00 800.00 0 800
avg-cpu: %user %nice %system %iowait %steal %idle
56.43 0.00 7.80 0.00 0.00 35.77
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 72.00 0.00 784.00 0 784
sda1 0.00 0.00 0.00 0 0
sda2 0.00 0.00 0.00 0 0
sda3 0.00 0.00 0.00 0 0
sda4 0.00 0.00 0.00 0 0
sda5 72.00 0.00 784.00 0 784
avg-cpu: %user %nice %system %iowait %steal %idle
54.87 0.00 6.49 0.00 0.00 38.64
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 80.20 0.00 855.45 0 864
sda1 0.00 0.00 0.00 0 0
sda2 0.00 0.00 0.00 0 0
sda3 0.00 0.00 0.00 0 0
sda4 0.00 0.00 0.00 0 0
sda5 80.20 0.00 855.45 0 864
avg-cpu: %user %nice %system %iowait %steal %idle
57.22 0.00 5.69 0.00 0.00 37.09
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 33.00 0.00 432.00 0 432
sda1 0.00 0.00 0.00 0 0
sda2 0.00 0.00 0.00 0 0
sda3 0.00 0.00 0.00 0 0
sda4 0.00 0.00 0.00 0 0
sda5 33.00 0.00 432.00 0 432
avg-cpu: %user %nice %system %iowait %steal %idle
56.03 0.00 7.93 0.00 0.00 36.04
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 41.00 0.00 560.00 0 560
sda1 0.00 0.00 0.00 0 0
sda2 2.00 0.00 88.00 0 88
sda3 0.00 0.00 0.00 0 0
sda4 0.00 0.00 0.00 0 0
sda5 39.00 0.00 472.00 0 472
avg-cpu: %user %nice %system %iowait %steal %idle
55.78 0.00 5.13 0.00 0.00 39.09
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 29.00 0.00 392.00 0 392
sda1 0.00 0.00 0.00 0 0
sda2 0.00 0.00 0.00 0 0
sda3 0.00 0.00 0.00 0 0
sda4 0.00 0.00 0.00 0 0
sda5 29.00 0.00 392.00 0 392
avg-cpu: %user %nice %system %iowait %steal %idle
53.68 0.00 8.30 0.06 0.00 37.95
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 78.00 0.00 4280.00 0 4280
sda1 0.00 0.00 0.00 0 0
sda2 0.00 0.00 0.00 0 0
sda3 0.00 0.00 0.00 0 0
sda4 0.00 0.00 0.00 0 0
sda5 78.00 0.00 4280.00 0 4280
答案1
当戴尔识别内存为批判的,这意味着 ECC 错误比正常情况下多。您可能在/var/日志/mcelog。我认为这是转移注意力的花招。
在正常负载下,服务器运行良好,然后突然间,性能急剧下降
我认为您需要查看在出现速度减慢时正在运行哪些查询。要实时监控这些查询,请尝试创新。
答案2
通常,如果您的 RAM 有问题,则要么什么都不会发生(因为系统会忽略有问题的 RAM),要么系统会运行一段时间,然后核心转储。
您看到的可能是核心转储后的故障转移......这可以解释暂时的速度下降。
如果它没有崩溃,那么 2GB RAM 的丢失要么会导致持续性问题,要么不会造成任何问题。您是否有任何间歇性的数据库作业可能会减慢它的速度?