记录停机事件以供事后审查

记录停机事件以供事后审查

上周,我们遇到了一次相当严重的中断,影响了多项服务,导致我们无法满足与客户签订的 SLA 要求。现在一切都已解决,我正在开展事后审查。

通过这次审查,我希望写出一份内部文件,描述此次中断、其影响、我们的响应和解决方案。我希望写出一份相当标准的表格,以供将来重复使用。我在下面列出了我的想法,但还应该包括哪些内容?如果这是一起与安全相关的事件,你会添加什么内容?

  • 概括事件的高管级别总结。
  • 受影响的服务
  • 影响对我们的用户和 SLA 有什么影响?是否有金钱方面的损失、交易遗漏、客户流失等?
  • 停电时长对于每项受影响的服务,如果存在差异
  • 原因包括主要原因和次要原因
  • 解决
  • 事件时间表通知、与外部供应商的联系、客户通知、回复等。
  • 我们的回应存在问题我们对停电的响应是否没有按计划进行?是否通知了正确的人员?供应商是否履行了合同义务?
  • 采取预防措施我们如何防止此类中断再次发生或减少其影响?
  • 检测方法我们对这次中断的检测有多好?我们将来如何改进检测?
  • 未来停电响应中需要做出的改变

尝试将帖子限制为一个项目和解释,并且可以使用得票最高的答案来更新此帖子。

答案1

虽然它可以被涵盖在采取预防措施,我建议有一个检测方法您可以使用该部分来记录真正的症状是什么,以及如果问题再次发生,如何(更快地)检测到问题,最好使用自动化。

答案2

看起来不错。我只想补充以下内容:

影响/后果:中断的后果是什么 - 谁受到了影响、哪些 SLA 被违反(如果有)、是否有任何连锁反应?

答案3

受影响的服务和中断持续时间只能说明中断的严重程度。您还想知道对业务的影响。

影响:这对用户有什么影响?用户是如何看待的?这给我们造成了多大的损失(因未达到 SLA、订单丢失等)?

答案4

公开发布和内部发布

这更多是管理层要决定的事情,但无论如何,您可能希望包括应该向客户发布的内容或您的建议。此外,无论哪种方式,在发布任何内容之前,都要获得管理层对将向客户发布的内容的确切措辞的批准。

公开发布的内容应包含在内,以便公司中的任何人都知道他们可以告诉客户什么。

相关内容