如何定义服务水平协议的适当测量？

Question 1

我在这个领域有丰富的经验；我为几家财富 5 强公司做了很多工作，这些公司像 ISP 一样运营他们的数据中心，为需要托管和支持服务的各个公司部门提供服务。

它们通常有两个指标，称为 SLA（服务水平协议）和 OLA（操作水平协议）。

SLA 是通过所使用的硬件类型来满足的。在谈论 SLA 时，我们使用级别来描述它们。SLA-1 表示零停机时间，SLA-2 表示停机时间最多为 1 小时，SLA-3 表示停机时间 8 小时，等等……SLA 是通过使用冗余设备来满足的。在一家公司，我们使用大量 Cisco 来实现高可用性（Cisco CSM 和 GSS 设备）。在谈论 SLA 级别时，我们通常谈论 HA（高可用性）和 DR（灾难恢复）。在公司拥有多个数据中心的情况下，HA 组件通常是每个数据中心的属性，而 DR 是跨数据中心的属性；两者都以 RPO（恢复点目标）和 RTO（恢复时间目标）来衡量，以表示 SLA 级别。

从根本上讲，OLA 指的是某人（人类）对需要人工干预/纠正措施的事件的响应速度。OLA 通常也以响应时间来衡量；它们使用相同的 RTO/RPO 目标。我咨询过的一家公司使用 6 个级别作为其 OLA 指标。以下前 3 个级别就是一个例子：

OLA-1：RTO 0 < 2 小时 OLA-2：RTO >= 2 & <= 4 小时 OLA-3：如果不是数据中心故障，则 RTO >= 24 小时 & <= 30 天，如果直流故障 > 30 天。

推动 OLA 和 SLA 指标的因素是所谓的 CIA 评级。CIA = 机密性、完整性和可用性。应用程序的数据应由为该应用程序付费的业务部门进行分类。CIA 将帮助推动 OLA 和 SLA 应该是什么样子。CIA 级别的每个部分都被赋予一个从 1 到 3 的数字。因此，例如，CIA 评级 1-1-1 将代表高度机密、最高完整性级别和最高可用性级别。CIA 评级 3-3-3 是最低的。因此，CIA 评级 3-3-3 通常映射到 SLA 和 OLA 级别 6，其中 SLA-6 和 OLA-6 是最低（最长响应时间）保证。

获得 CIA 评级的方法通常在于确定如果数据被盗（机密性）、被泄露（完整性）或系统瘫痪（可用性），企业将损失多少钱。因此，如果机密数据被盗，企业将损失 1000 万美元，则其 C 评级为 1；如果数据丢失并不严重，只会给企业造成 1,000 美元的损失，则其 C 评级为 3。

这通常是我为其提供咨询的大公司处理此类事情的方式。

Answer

我在这个领域有丰富的经验；我为几家财富 5 强公司做了很多工作，这些公司像 ISP 一样运营他们的数据中心，为需要托管和支持服务的各个公司部门提供服务。

它们通常有两个指标，称为 SLA（服务水平协议）和 OLA（操作水平协议）。

SLA 是通过所使用的硬件类型来满足的。在谈论 SLA 时，我们使用级别来描述它们。SLA-1 表示零停机时间，SLA-2 表示停机时间最多为 1 小时，SLA-3 表示停机时间 8 小时，等等……SLA 是通过使用冗余设备来满足的。在一家公司，我们使用大量 Cisco 来实现高可用性（Cisco CSM 和 GSS 设备）。在谈论 SLA 级别时，我们通常谈论 HA（高可用性）和 DR（灾难恢复）。在公司拥有多个数据中心的情况下，HA 组件通常是每个数据中心的属性，而 DR 是跨数据中心的属性；两者都以 RPO（恢复点目标）和 RTO（恢复时间目标）来衡量，以表示 SLA 级别。

从根本上讲，OLA 指的是某人（人类）对需要人工干预/纠正措施的事件的响应速度。OLA 通常也以响应时间来衡量；它们使用相同的 RTO/RPO 目标。我咨询过的一家公司使用 6 个级别作为其 OLA 指标。以下前 3 个级别就是一个例子：

OLA-1：RTO 0 < 2 小时 OLA-2：RTO >= 2 & <= 4 小时 OLA-3：如果不是数据中心故障，则 RTO >= 24 小时 & <= 30 天，如果直流故障 > 30 天。

推动 OLA 和 SLA 指标的因素是所谓的 CIA 评级。CIA = 机密性、完整性和可用性。应用程序的数据应由为该应用程序付费的业务部门进行分类。CIA 将帮助推动 OLA 和 SLA 应该是什么样子。CIA 级别的每个部分都被赋予一个从 1 到 3 的数字。因此，例如，CIA 评级 1-1-1 将代表高度机密、最高完整性级别和最高可用性级别。CIA 评级 3-3-3 是最低的。因此，CIA 评级 3-3-3 通常映射到 SLA 和 OLA 级别 6，其中 SLA-6 和 OLA-6 是最低（最长响应时间）保证。

获得 CIA 评级的方法通常在于确定如果数据被盗（机密性）、被泄露（完整性）或系统瘫痪（可用性），企业将损失多少钱。因此，如果机密数据被盗，企业将损失 1000 万美元，则其 C 评级为 1；如果数据丢失并不严重，只会给企业造成 1,000 美元的损失，则其 C 评级为 3。

这通常是我为其提供咨询的大公司处理此类事情的方式。

Question 2

我不会承诺硬件问题的修复时间，软件问题也是如此。你永远不知道什么时候会等供应商修复某个关键错误。就 SLA 级别而言，我发现它们往往是“有人会在 X 小时内解决你的问题”的形式。当然，X 取决于他们支付多少钱，但根据我的经验，1 到 8 小时之间似乎是正常的。

Answer

我不会承诺硬件问题的修复时间，软件问题也是如此。你永远不知道什么时候会等供应商修复某个关键错误。就 SLA 级别而言，我发现它们往往是“有人会在 X 小时内解决你的问题”的形式。当然，X 取决于他们支付多少钱，但根据我的经验，1 到 8 小时之间似乎是正常的。

Question 3

如果有人要求您提供软件安装位置的硬件问题恢复服务水平协议 (SLA)，答案是“否”。您可以承诺响应时间，但如果不控制整个硬件/操作系统/软件堆栈，您就无法承诺解决时间。

也许你的客户正以一种尴尬的方式告诉你，他们确实需要为你的产品提供托管服务？这样他们就可以避免他们担心的任何内部问题，直接给你开一张支票。

Answer

如果有人要求您提供软件安装位置的硬件问题恢复服务水平协议 (SLA)，答案是“否”。您可以承诺响应时间，但如果不控制整个硬件/操作系统/软件堆栈，您就无法承诺解决时间。

也许你的客户正以一种尴尬的方式告诉你，他们确实需要为你的产品提供托管服务？这样他们就可以避免他们担心的任何内部问题，直接给你开一张支票。

Question 4

签订 SLA 时需要考虑的一件事是，SLA 本身毫无意义，必须与 SLA 一起遵守，以防不履行 SLA 而受到处罚。

例如，我们的 ISP 为我们提供 100% 的网络 SLA，但我们可以获得的最大金额是每月的账单，这个金额非常低，因为现在带宽很便宜，远远低于网络故障时我们损失的金额。

此外，合同中通常写的是某人对问题做出反应的速度，而不是解决问题的实际时间。因此，如果他们让你承诺在较短的时间内做出反应，那么就让实习生上夜班，帮你整理工单，直到你醒来，一切就绪。

根据我的经验，所有这些 SLA 业务实际上意义非常小，甚至没有意义。

Answer

签订 SLA 时需要考虑的一件事是，SLA 本身毫无意义，必须与 SLA 一起遵守，以防不履行 SLA 而受到处罚。

例如，我们的 ISP 为我们提供 100% 的网络 SLA，但我们可以获得的最大金额是每月的账单，这个金额非常低，因为现在带宽很便宜，远远低于网络故障时我们损失的金额。

此外，合同中通常写的是某人对问题做出反应的速度，而不是解决问题的实际时间。因此，如果他们让你承诺在较短的时间内做出反应，那么就让实习生上夜班，帮你整理工单，直到你醒来，一切就绪。

根据我的经验，所有这些 SLA 业务实际上意义非常小，甚至没有意义。

如何定义服务水平协议的适当测量？

答案1

答案2

答案3

答案4

相关内容