压力 (Linux) 设置、期望和问题

压力 (Linux) 设置、期望和问题

上周刚收到一些新内核和 RAM,想对它们进行压力测试,看看它们是否好用。不幸的是,我找不到任何关于如何在没有 OD 的情况下进行此操作的真正资源,所以我启动了 StressLinux。

双 QC Xeon 2.66 配备 HT、16GB RAM,启动压力测试:

stress --cpu 10240 --io 256 --vm 16 --vm-bytes 1G --vm-keep --timeout 2000

反击(除其他外):

<-- worker 8129 got Signal 9
now reaping child worker process
failed run completed in 2009s

这是什么意思?我该去哪里?

[[ 编辑 ]]

此外,对于这样的机器来说,什么是好的和测试性的设置?截至本次编辑,我正在使用:

stress --cpu 30000 --io 2000 --vm 30 --vm-bytes 1G --vm-keep

而且我似乎仍然无法将 CPU 温度升至 60C 以上... 不过,这是一台 Dell PowerEdge 1900,而且气流非常疯狂... 但是难道我不应该能够将温度再升高一点吗?

[[ 再次编辑 ]]

也许我应该把这个问题重新表述成我认为显而易见的方向:我如何向处理器征税?极端(什么设置)以确保我有坚如磐石的芯片(即在二手保修期结束之前)。

我使用“热量”作为衡量标准,因为这是我所知道的唯一方法。低热量(仅比怠速高 20C)表明我没有尽全力推动它们。

这个问题的自然延伸可能是:“有没有办法知道我实际上对内核施加了多大的压力?或者我还有多少余量?”

我的烤箱在哪里?

答案1

你正在做最错误

认真地说 - 这不是你“压力测试”系统的方法。CPU
的温度高低并不能很好地衡量 CPU 的工作负荷 - 我可以让一个轻度 CPU 轻易超过其设计的工作温度参数(并且可能触发其热保护电路并关闭)。如果我愿意用液氦冷却 CPU,我可以让 CPU 在零度时全速运转。
你正在测试冷却系统的效率,仅此而已。


如果您想确定系统是否稳定且功能齐全,只需将任何通用处理器和内存密集型工作负载放在其上(尝试重新编译操作系统:make world仍然是 BSD 社区中的标准压力测试)。

  • 如果系统崩溃,则表示不稳定,您可以开始查看组件(RAM、CPU、主板)来确定原因。
  • 如果它存活下来,你就有一个数据点表明可能的稳定性,但请记住:
    你永远无法知道某样事物现在有多强大,你只能知道它在失败之前有多强大。

如果你在测试中引发故障,你就知道这个组件现在不再可用。你无法说它是否在你拿到它时就已经坏了——你的压力测试可能有造成故障(特别是如果您使用“热量”作为压力的仲裁者:以超过其最高额定温度运行 CPU 是破坏它的好方法)。


信誉良好的供应商销售的现代计算机使用高质量的部件,这些部件在销售前经过制造商的广泛测试。像英特尔这样的公司依靠他们的良好声誉来维持业务。
因此,您拥有坏 CPU 的可能性相对较低。坏 RAM 或坏硬盘的可能性要高得多,但这就是我们拥有 ECC RAM 和 RAID 阵列的原因。

相关内容