在非常分离的 IT 作为基础设施/工程作为软件的环境中运行。
我有一台服务器,在随机的正常运行时间之后,会出现严重的 CPU 速度下降。
该服务器是一个在 RedHat 上运行的基本未经修改的 Apache 网络服务器,使用 AMD Opteron(tm) 处理器 6176 SE。
cat /proc/cpuinfo
在服务器首次重启时,不同时间段内报告的硬件速度大致与规格一致(2300MHz)。随着时间的推移,报告的速度将降低至约 600MHz。这反映在多个进程变慢(渲染、解释器时间、内容交付等)上。我们甚至无法以有针对性的方式将这些 CPU 的压力恢复到极限。
我们已经要求我们的 IT 部门仔细检查硬件,以确保没有发生故障。上次他们检查时发现备用电源有问题,但这并不能解释为什么服务器的性能会随着时间的推移而下降,不是吗?自从更换了电源后,我们仍然看到这台服务器的行为。现在我们要求进一步调查,IT 部门只好回复“我们已经调查了服务器,没有发现任何问题”,即使 CPU 的运行速度低于其宣传速度的 30%。
我是否忽略了某些显而易见的事情?此时,我觉得我需要将此故障上报给管理层,但我正在寻找其他所有选项。我绝对不是系统管理员,也不明白到底发生了什么,导致我的资源如此严重地枯竭。
答案1
有没有办法查看 CPU 温度或服务器温度?如果 CPU 开始过热,也许它会降低时钟频率以稍微冷却一下。CPU 上的风扇可能没有运行,或者运行速度不够快?
答案2
@ajgringo619 的回答最准确:有人一直没有履行我们运营协议中列出的职责,而且这种情况及其相关风险应该由管理层处理。¯\_(ツ)_/¯