当前状态监测和故障预测系统的缺点

当前状态监测和故障预测系统的缺点

我有一个问题,企业中已经开发并应用了哪些用于在线故障预测的优秀解决方案(软件/硬件)?Zabbix、Openstb、Cacti 和类似的替代方案?你能再列举一些吗?你能描述一下它们有哪些优点和缺点吗,特别是在故障预测方面?

我想知道它们的缺点,并通过模型\算法进行一些改进。如果您对在线故障预测的概念不太了解,请参考以下描述。如果您已经知道,请跳过它。

Online failure prediction -- It is an approach to evaluate whether an incoming failure will occur in the near future, and when the failure will occur, and in which component (maybe software or hardware) the failure will occur. It's a short-term prediction by tracking failure, detected error reporting, undetected errors' symptoms, faults's auditing (actively searching the faults, for example, search inodes' inconsistency in Linux filesystems).

论文中描述了更详细的介绍和相关方法,https://s3-us-west-2.amazonaws.com/mlsurveys/88.pdf

非常感谢 !

答案1

监控系统比较:https://en.wikipedia.org/wiki/Comparison_of_network_monitoring_systems

我不认为某些监控系统故障预测开箱即用。您提供的论文太学术了。您仍然可以在某些监控系统之上构建它,这将为您的故障算法预测提供数据/事件/故障。

一些监控系统具有:

  • 度量预测(趋势预测)。这不是失败的预测。一篇不错的半学术论文中 Zabbix 对此进行了介绍 -Zabbix 预测

  • 异常检测- 再次强调,这不是预测,而是检测。最著名的异常检测 OSS 是天际线. 基于 RRD 的系统 (Cacti) 使用 RRDHolt Winter 算法. 石墨也有一些数学函数,可用于异常检测。

如果您想实现/改进故障检测,那么请使其通用:

  • 输入层-一些插件概念,因此用户应该能够使用/编写自己的插件,它将从插件特定的监控系统中提取数据
  • 故障检测层 - 有很多算法,因此每个算法都应该是可配置的
  • 输出层-类似于输入层,因此有关预测故障的事件可以返回到监控系统或其他警报系统

请使其对用户(而非学术)友好并使用 Github。当你需要测试它时,请联系我。:-)

相关内容