在该客户现场,有两台新的 Dell PowerEdge R320 服务器,配置如下:
- 单个 6 核 CPU
- 16 GB RAM
- RAID 1 阵列中的 2x500 GB SATA 磁盘
操作系统是 Windows Server 2012 R2,用作域控制器;所有固件和驱动程序都是最新的,并且 Windows 已完全修补;系统负载通常非常低。
突然间,其中一台服务器的速度慢得像爬行一样。我说的“爬行”是指“它甚至无法在合适的时间内绘制一个窗口”。执行任何操作,甚至右键单击并显示上下文菜单,甚至移动光标,是一种难以忍受的痛苦。
服务器上没有异常负载:CPU 使用率为 1-3%,RAM 使用率低于 4 GB,没有磁盘或网络峰值,什么都没有。
Windows 事件日志中也没有任何错误(当我们最终设法打开它时),并且当网线断开时,速度缓慢的情况并没有停止。
重新启动 Windows 也是没用的:经过很长的启动时间后,系统仍然像以前一样慢。
最后但同样重要的一点是,系统前面板显示屏上以及 POST 期间的屏幕上均没有出现任何错误消息。
作为最后的手段,我们决定尝试冷启动,并在重启服务器之前断开电源线。这解决了问题:系统正常启动并恢复全部性能。
然而,问题仍然存在:这里到底发生了什么?!?
而且更重要的是:我们如何确保它不再发生?
答案1
我们的 T320 也出现过这种情况。这是 BIOS 中的一个错误。戴尔发布了更新的 BIOS,问题已得到修复。解决方法是按如下方式设置 BIOS:在 PowerEdge BIOS 中,将系统配置文件更改为性能优化。这将禁用 C 状态和 C1E。说明: http://www.ponjavic.com/wordpress/2014/09/30/disable-dell-poweredge-m620-cpu-throttling/
答案2
遇到了相同的问题,在问题出现时检查了 DSET 日志,然后进行了冷启动修复后,戴尔支持声称出现电涌,当时服务器由 APC 1500kVA SmartUPS 供电。
戴尔支持建议冷启动以重置传感器(拔下电源,按住电源按钮超过 3 秒)。
支持还建议通过 Lifecycle(需要重新启动)或从 Windows 系统(不需要重新启动)将 iDrac 修补至最新可用的 1.66.65 版本。
这件事发生在几个星期前,即2015年1月的第一周,之后问题再没有出现。
ESM_固件_3F4WV_WN64_1.66.65_A00.EXE
Dell PowerEdge R320 6 核 CPU 24 GB RAM 2 x 1000 GB NLSAS 磁盘 RAID 1
答案3
我有 2 台 Win2K12-R2 T320,它们具有相同的硬件、固件和驱动程序。昨天,其中一台变得非常慢 - 数周内没有安装任何 Windows 更新。运行 DSET 后没有硬件错误:
戴尔技术人员建议进入 T320 的 BIOS,进入系统配置文件设置并将“每瓦性能”更改为“性能”
重新启动后,服务器运行速度很快,性能比几个月前更好。
答案4
我会先将所有固件版本更新到最新版本,包括 BIOS、iDRAC/Lifecycle Controller。不过,这更可能是 BIOS 中的电源使用和性能设置问题。查看性能和功率调整有关详细信息,请参阅戴尔第 12 代服务器的文档。