有没有办法通过测量系统参数(例如 CPU 使用率、内存使用率等)来预测服务器故障?
失败可能由多种原因造成。
我的问题表述得不好。因此进行了此编辑
编辑
我们能否利用从收集的数据(系统参数)中进行的某种机器学习来预测服务器是否会瘫痪?
我们会记录服务器运行和故障时的状况
答案1
为自己购买一台服务器和组件,定期进行自我测试并报告“故障前”警告。服务器的这种能力真正决定了顶级厂商(惠普、IBM、戴尔)和次级厂商之间的区别 - 当然,它的成本更高,但对于某些人来说,这是值得的。
例如,HP DL380 Gen9 服务器的设备和组件周围有数百个传感器,这些传感器结合起来可在可能的情况下提供这些“故障前”警告。这确实经常有效,而且他们的支持合同(同样不便宜)允许根据此信息更换硬件 - 您可以更换磁盘/控制器/内存/CPU/PSU 等。前它的失败会对你产生影响。
总而言之,如果可用性对您来说很重要,那么请购买可以执行此操作的服务器并将其配置为在发生情况时报告此信息。
答案2
不,至少在一般情况下不会,因为不同的系统在您可能检查的每个方面都有很大差异。例如,在我的 Web 服务器上,如果 CPU 使用率在很短的时间内达到 100%,我会担心,但在计算节点上,CPU 使用率没有达到 100% 可能表明需要担心。
您可以尝试安装一些监控系统(例如 Nagios/Icinga)并提出在您的特定用例中有意义的阈值参数,但您必须认真考虑要检查哪些参数以及为您的具体情况设置哪些阈值。