我在运行 ESXi 6.0 的服务器上遇到了严重问题。上周一切正常。现在突然整个系统都变得毫无用处了。我的数据存储延迟长达 51 秒!从现在到上周,除了在虚拟机上安装一些软件外,没有任何变化。
该服务器是 HP Proliant DL360 G7 2X 六核 Xeon X5650 2.67GHz 144 GB RAM。8x 300GB HP 10k SAS 硬盘,RAID 10。
我的机器上有 6 个虚拟机,大多数都采用了精简配置的 VMDK,在 1.6 TB 中我有 600GB 的可用空间。
其中 2 台虚拟机似乎运行良好,其它的则运行得非常糟糕。
我尝试过重启服务器。为速度慢的虚拟机分配更多资源(即使它们有足够的资源),但没有任何效果。
即使关闭了所有虚拟机,我也尝试将虚拟机从服务器移至网络上的存储设备,但数据传输量还是出现了峰值。数据传输量会以 20-30MB/s 的速度持续约 20 秒,然后下降到接近 0 并持续几分钟,然后以恒定的模式恢复,这表明某处存在瓶颈。
当我尝试在已启动的虚拟机中在虚拟驱动器之间移动数据时,发生了同样的事情。现在我正尝试传输一个文件,速度约为 200kb/s。在速度较慢的虚拟机上,启动需要 20 多分钟,速度太慢以至于无法使用它。
我完全不知所措。如能帮助我解决这个问题,我将不胜感激。
答案1
我认为你的问题与RAID 控制器缓存和电池/闪存模块的健康状况例如,如果由于 RAID 电池故障而禁用 RAID 写入缓存,则阵列上的写入性能将严重下降。
有几种方法可以检查这一点。您能指定这是独立主机还是 vCenter 管理的集群的一部分吗?
编辑:
该主机似乎没有安装 HP 特定版本的 ESXi。
如果没有这个或 ESXi 的 HP 附加组件,没有对主机硬件或检查系统状态所需的任何实用程序的监控。
通常情况下,您可以像这样以图形方式查看状态:
我怀疑您的蓄电池出现故障,因为 G7 系列是 2011 年推出的,电池的使用寿命通常为 3-5 年。如果这是一台二手服务器,这可能是原因。您应该从这里,这里和这里。
在命令行中运行以下命令将显示电池状态(其他方便的命令):
/opt/hp/hpssacli/bin/hpssacli ctrl all show config detail | grep -i battery
输出:
[root@c2-esx1:~] /opt/hp/hpssacli/bin/hpssacli ctrl all show config detail | grep -i battery
No-Battery Write Cache: Disabled
Battery/Capacitor Count: 1
Battery/Capacitor Status: OK
如果部件损坏,我们可以使用以下命令强制其忽略电池状态(如果您的设备没有稳定的电源,则存在风险):
/opt/hp/hpssacli/bin/hpssacli ctrl slot=0 modify nbwc=enable
这至少可以在您安排零件维修/更换时恢复性能。