未知性质的 CPU 系统时间过长

未知性质的 CPU 系统时间过长

环境:
Intel 服务器主板 S2600GZ
2 个 Intel Xeon CPU E5-2620
128GB DDR3 RAM
Intel RAID 控制器 RS25DB080 (LSI SAS2208),带四个 ST2000NM0033-9ZM175 SATA 磁盘
Ubuntu 12.04.5 LTS / Linux 3.11.0-26-generic x86_64

我们在前面提到的控制器上构建了一个 4TB 硬件 RAID10 卷,并在其上安装了 Ubuntu Server 操作系统。此服务器在较小负载下处于“热备用”状态(中等活跃的 GlusterFS 副本块和一些备份 KVM/qemu VM)。

当磁盘负载增加(某些虚拟机占据主要角色、重新启动或 GlusterFS 卷活动增加)时,我们有时会遇到CPU 系统时间和高负载平均值。 既没有htop,也没有iotop揭示罪魁祸首。 irq 和 softirq 值正常。通常我们会尝试降低磁盘负载,最终 CPU 系统时间会慢慢恢复正常。但直到这一切再次发生。

我们实际上怀疑存储子系统,但无法确定到底是什么故障。MegaCli -PDList -aALL报告磁盘没有问题,MegaCli -AdpEventLog -GetSinceReboot -f lsi-events.log -aALL没有报告典型错误,卷状态始终为optimalsmartctl还报告任何硬盘都没有 SMART 问题。这种情况已经持续了六个多月,上述报告都没有变化 - 所有系统似乎都很健康。

那么,问题来了。任何微小的机会所描述的问题可能是由故障的 RAID 控制器引起的?或者更有可能是其中一个磁盘坏了,其 SMART 子系统和控制器固件都无法检测到它?在后一种情况下,我们如何识别磁盘?或者我们如何确认这是控制器的故障,因此有必要更换它?也许还有其他建议?

答案1

真的吗????

两年前我在两台服务器上遇到了同样的问题,所以我不相信使用内部 RAID 控制器可以解决这个问题,一周后我选择使用软件 RAID 重新安装两台服务器(这样总是安全的)。两年后,它们运行正常,没有出现任何问题。当然,我的客户花了很多钱却一无所获,但我从一开始就不同意他的选择,因为我习惯与其他硬件供应商合作。

看一看..

dmidecode -t 2

SMBIOS 2.6 present.

Handle 0x0002, DMI type 2, 15 bytes
Base Board Information
Manufacturer: Intel Corporation
Product Name: S2600GZ
Version: G11481-354
Serial Number: QSGR34501185
Asset Tag: ....................
Features:
    Board is a hosting board
    Board is replaceable
Location In Chassis: To be filled by O.E.M.
Chassis Handle: 0x0003
Type: Motherboard
Contained Object Handles: 0

相关内容