不知所措：随机降低 CPU 性能是“名义上的”

2024-7-1 • tag-icon

在非常分离的 IT 作为基础设施/工程作为软件的环境中运行。

我有一台服务器，在随机的正常运行时间之后，会出现严重的 CPU 速度下降。

该服务器是一个在 RedHat 上运行的基本未经修改的 Apache 网络服务器，使用 AMD Opteron(tm) 处理器 6176 SE。

cat /proc/cpuinfo在服务器首次重启时，不同时间段内报告的硬件速度大致与规格一致（2300MHz）。随着时间的推移，报告的速度将降低至约 600MHz。这反映在多个进程变慢（渲染、解释器时间、内容交付等）上。我们甚至无法以有针对性的方式将这些 CPU 的压力恢复到极限。

我们已经要求我们的 IT 部门仔细检查硬件，以确保没有发生故障。上次他们检查时发现备用电源有问题，但这并不能解释为什么服务器的性能会随着时间的推移而下降，不是吗？自从更换了电源后，我们仍然看到这台服务器的行为。现在我们要求进一步调查，IT 部门只好回复“我们已经调查了服务器，没有发现任何问题”，即使 CPU 的运行速度低于其宣传速度的 30%。

我是否忽略了某些显而易见的事情？此时，我觉得我需要将此故障上报给管理层，但我正在寻找其他所有选项。我绝对不是系统管理员，也不明白到底发生了什么，导致我的资源如此严重地枯竭。

答案1

有没有办法查看 CPU 温度或服务器温度？如果 CPU 开始过热，也许它会降低时钟频率以稍微冷却一下。CPU 上的风扇可能没有运行，或者运行速度不够快？

答案2

@ajgringo619 的回答最准确：有人一直没有履行我们运营协议中列出的职责，而且这种情况及其相关风险应该由管理层处理。¯\_(ツ)_/¯

答案1

答案2

相关内容