系统日志严重性级别何时使用警报与严重

系统日志严重性级别何时使用警报与严重

简短概述:警报是否比严重更严重。

RFC 5424简要定义系统日志严重性级别并给出简短说明。每个系统日志级别都有一个代码 0 - 7。据我了解,0(紧急)最严重,7(调试)最不严重。

但是我对 1 (警报) 和 2 (严重) 有疑问。RFC 5424 中的定义如下:

  • 警报:必须立即采取行动
  • 危急:危急情况

然而本网站他们给出了更长的描述(显然是个人观点),但将其定义为:

  • 警报:应立即纠正 - 通知可以解决问题的工作人员 - 例如丢失备份 ISP 连接
  • 严重:应立即纠正,但表明主系统出现故障 - 在警报之前修复严重问题 - 例如失去主要 ISP 连接

这似乎是倒退的,因为它暗示 Critical 比 Alert 更严重,尽管 RFC 5424 似乎将 Alert 置于更严重的位置。我只是想知道对此是否有官方立场或任何最佳实践?

答案1

“严重”表示糟糕的事情即将发生。“警报”表示糟糕的事情已经发生。

看一眼构建可扩展的 Syslog 管理解决方案在 Cisco.com 上阅读有关管理系统日志的精彩文章。

答案2

我认为这些例子的意思是,如果触发了警报状态,那么严重情况已经发生。在示例中,它指出,当主 ISP 发生故障时,将发生严重情况,而当备份 ISP 发生故障时,将发生警报。(因此,主 ISP 和备份 ISP 都发生故障)。备份 ISP 发生故障本身可能不是一个警报,因为主 ISP 仍处于运行状态。(可能是严重情况)。同样,主 ISP 发生故障只是一个严重情况,而不是警报,因为系统仍将在备份 ISP 上运行。(尽快修复仍然很重要。)

答案3

我认为 syslog 的作者无意中将 critical 和 alert 颠倒了。从语言角度来看,alert 类似于“请注意;注意”(犯罪节目中的“BOLO”是一个很好的比喻),“critical”类似于“尽快处理此问题”,而“emergency”类似于“放下手头的工作,立即修复此问题”。

以下假设情况可能更好地说明了警报和关键

  • 2013/1/1:严重:md0(RAID-1)的驱动器 0 显示温度过高(55C)
  • 2013/1/5:严重:md0(RAID-1)的驱动器 0 显示坏扇区数增加(34->147)
  • 2013/1/6:严重:md0(RAID-1)的驱动器 0 出现故障。
  • 2013/1/6:警报:md0(RAID-1)的驱动器 1 显示温度过高(53C)
  • 2013/1/7:紧急情况:md0(RAID-1)的驱动器 1 显示坏扇区数增加(12->18)

驱动器 0 的问题只是关键问题,因为它的镜像没有问题。驱动器 1 的热量问题是一个警报,因为仅有的RAID 中的驱动器出现问题;它的坏扇区数处于紧急情况,因为该驱动器有两个问题,并且是阵列中剩下的唯一驱动器。

唉,syslog 现在已经根深蒂固,无法改变这两个标签的顺序。

相关内容