我们有一台运行 VMware ESXi 的 Dell PowerEdge R820,在过去两个月中出现了多个 CPU 错误。它最初在 CPU1 上出现 IERR,现在显示 CPU3 的 CPU 检查错误。我换出了 CPU3 --> CPU2 和 CPU1 --> CPU4,以查看错误是否会跟随处理器。交换后,服务器运行了大约 72 小时,然后我执行了另一个 DSET,没有出现更多硬件错误。我想对 CPU 和内存运行大约 24 小时的压力测试,以验证它是否能够在我们投入生产时处理负载。CPU 可能在运输过程中以某种方式发生了移动(就在我们开始收到第一个错误之前不久)。
问题是我不知道有什么压力测试工具适合我的特定设置。我尝试使用打破但它无法正确启动。(在“加载 sb_edac”时挂起)。您能推荐我使用什么工具来对运行 VMware ESXi 的 R820(Intel Xeon e5-4600)进行压力测试吗?
答案1
在这种情况下,您只需加载包含该stress
工具的 Linux live-CD 或救援 CD(我更喜欢PLD Linux 光盘) 并使服务器处于循环状态。
但是,我非常依赖戴尔的支持,并更换系统板/CPU 和/或 RAM。服务器不健康!调试这类事情可能不省时。
您是否捕获了 ESXi 系统的转储?支持日志?