如果主服务器发生故障，何时启动应急计划？

Question 1

您可能想要使用的框架是两个时间窗口，用于在出现问题时做出决定。第一个时间窗口的结束将是软限制，第二个将是切换时间的硬限制。

软限制将是第一个切入点。如果您一直在尝试解决问题，但距离解决问题还差得远，那么您可以在软限制时切换。如果您认为在软限制下您已经接近解决问题，那么您将继续进行直到硬限制。因此，软限制可能是 5 分钟，而硬限制可能是从尝试解决问题开始的 8 分钟。在硬限制下，无论如何您都可以切换。

您必须自行决定所用窗口的长度。您还必须确定是否要包括实际开始查看问题之前所花费的时间。

当然，您也可以随机应变，做您认为当时最好的事情——不必计划好每一个细节，这很可能是可以的。

Answer

您可能想要使用的框架是两个时间窗口，用于在出现问题时做出决定。第一个时间窗口的结束将是软限制，第二个将是切换时间的硬限制。

软限制将是第一个切入点。如果您一直在尝试解决问题，但距离解决问题还差得远，那么您可以在软限制时切换。如果您认为在软限制下您已经接近解决问题，那么您将继续进行直到硬限制。因此，软限制可能是 5 分钟，而硬限制可能是从尝试解决问题开始的 8 分钟。在硬限制下，无论如何您都可以切换。

您必须自行决定所用窗口的长度。您还必须确定是否要包括实际开始查看问题之前所花费的时间。

当然，您也可以随机应变，做您认为当时最好的事情——不必计划好每一个细节，这很可能是可以的。

Question 2

一切都与成本有关。尝试修复问题需要花费 X 分钟/小时，成本是多少？这是否低于切换到备份服务器、丢失一些数据并最终返回主生产服务器的成本？

一旦尝试修复的成本超过更换的成本，就会做出更换的决定。除非你控制了成本，否则你如何定义“灾难”？

Answer

一切都与成本有关。尝试修复问题需要花费 X 分钟/小时，成本是多少？这是否低于切换到备份服务器、丢失一些数据并最终返回主生产服务器的成本？

一旦尝试修复的成本超过更换的成本，就会做出更换的决定。除非你控制了成本，否则你如何定义“灾难”？

相关内容