数据中心如何应对持续的磁盘故障？

Question 1

你的数学错了

(1-0.016)^1000是您能够在整整一年内不发生任何驱动器故障（拥有 1000 个磁盘的池）的概率，但您不能只将 1 年乘以该数字来获得磁盘发生故障所需的时间，这没有意义。

如果 AFR 为 1.6%，则意味着一年内（大约每 22 天）1000 个磁盘中会有 16 个发生故障（不考虑更换的驱动器也发生故障的可能性）

另一种计算方法如下，1 年内驱动器发生故障的概率为 1.6%，平均而言，单个特定驱动器发生故障需要数年时间，因此每 62.5 年累计驱动器年数中预计会出现一次故障。如果分布在 1000 个驱动器上，则实际1/0.016 = 62.5需要 62.5 年驱动器年数，即 22.8 天。62.5/1000 = 0.0625

Answer

你的数学错了

(1-0.016)^1000是您能够在整整一年内不发生任何驱动器故障（拥有 1000 个磁盘的池）的概率，但您不能只将 1 年乘以该数字来获得磁盘发生故障所需的时间，这没有意义。

如果 AFR 为 1.6%，则意味着一年内（大约每 22 天）1000 个磁盘中会有 16 个发生故障（不考虑更换的驱动器也发生故障的可能性）

另一种计算方法如下，1 年内驱动器发生故障的概率为 1.6%，平均而言，单个特定驱动器发生故障需要数年时间，因此每 62.5 年累计驱动器年数中预计会出现一次故障。如果分布在 1000 个驱动器上，则实际1/0.016 = 62.5需要 62.5 年驱动器年数，即 22.8 天。62.5/1000 = 0.0625

Question 2

有可用的机器人，你可以放入 100 个磁盘，机器人会自动更换故障磁盘

阿里巴巴随后声称已经开发出更好的版本——天巡，这是一种能够更换故障硬盘的人工智能机器人。 https://analyticsindiamag.com/current-state-of-robots-at-the-data-centers/

一些超大规模数据中心也使用集装箱，里面装着所有东西，其中一定数量的硬件可能会出现故障，当出现故障时，他们只需将集装箱运出，再用叉车运入新的集装箱即可。硬盘出现故障几乎总是因为振动问题。云数据中心运行的系统设计非常精良，故障的主要原因是湿度。

Answer

有可用的机器人，你可以放入 100 个磁盘，机器人会自动更换故障磁盘

阿里巴巴随后声称已经开发出更好的版本——天巡，这是一种能够更换故障硬盘的人工智能机器人。 https://analyticsindiamag.com/current-state-of-robots-at-the-data-centers/

一些超大规模数据中心也使用集装箱，里面装着所有东西，其中一定数量的硬件可能会出现故障，当出现故障时，他们只需将集装箱运出，再用叉车运入新的集装箱即可。硬盘出现故障几乎总是因为振动问题。云数据中心运行的系统设计非常精良，故障的主要原因是湿度。

数据中心如何应对持续的磁盘故障？

答案1

答案2

相关内容