我一直在研究在我们的生产环境中运行的 HP Gen9 服务器的 MTTF、MTBF、MTBR 和 MTBF。
我的问题的根源是,应该担心还是不担心。
由于每台服务器都有混合的硬件,我似乎无法获取任何好的数据。
在我上一家公司,我们运行着大约 2000 台戴尔服务器 r210 r410 r710,平均每天有大约 5 台服务器发生某种故障。因此,大约 0.25% 的服务器严重瘫痪,需要更换零件才能再次使用。
我上一家公司的所有设备都安装在 HA 对、N+2 基础设施中,因此对生产没有影响。我们能够更换服务器并继续运行
在我目前的办公室,我们运行着 9 台服务器(HP Gen9、56 VM 的 Hyper-V),我们手头上没有保存很多替换部件,而且我们的数据中心也没有管理,所以如果有东西坏了,我们必须开车大约 45 分钟去更换任何东西。
我的 CTO 和 IT 经理似乎并不担心,去年他们大约有 2.5 天的停机时间,我一直认为我们需要对服务器进行集群,但他们认为没有必要。
这到底是对是错?不知道该怎么办。
我知道如果发生什么事,责任不在 CTO,而是 CTO。这是一家很小的公司,只有 CTO、IT 经理、我自己(开发运营)和 1 个服务台人员。
总体而言,我在运行生产环境方面的经验非常有限,很多东西的设置方式我称之为非常初级的水平,在我加入之前,我的 CTO 和 IT 经理都不太了解集群。他们当时正在开展一个不带 HA 的 DR 设置项目,我反对这个项目,但最终失败了。
答案1
不要担心 MTTF、MTBF、MTBR 和 MTBF 数字……为什么这些适用于您的环境的具体情况?
服务器具有内部冗余,在生产中可以非常稳定。但这取决于您的环境、磁盘阵列/组成、磁盘类型、RAM 数量、CPU 配置、热特性、功率等。
采用某种形式的高可用性能减少停机的可能性,并为您提供在发生故障时转移工作负载的地方。
这是一个财务和运营风险问题。
也许从独立到集群的增量成本已经足够高,以至于没有商业意义?也许 2.5 天的停机时间(~99.3% 可用性)对您的运营来说已经足够了。您应该专注于异地保护和良好的备份。您所有的 HP Gen9 系统现在都享受制造商保修,因此您做可以使用零件。如果您有 RAID、冗余电源/风扇和稳定的电源,那么您已经覆盖了最关键的领域。
从财务角度考虑这个问题,概述风险、相关成本,并尝试做出令人信服的商业您想要的案例。