数据中心如何应对持续的磁盘故障?

数据中心如何应对持续的磁盘故障?

根据 2022 年磁盘可靠性报告

https://www.techspot.com/news/97909-ssd-reliability-only-slightly-better-than-hdd-backblaze.html

2023 年第三季度旋转硬盘故障

SSD硬盘的年故障率为0.98%,HDD为1.6%。

这意味着如果你有一个有 600 个磁盘的数据中心:

有一个(1-0.01)^600 = 0.2% that no disk will fail for the year。如果磁盘故障分布均匀,这是否意味着每天有一个磁盘故障?

如果数据中心有1000个磁盘:

(1- 0.016 )^1000 = 0.0000000009,这意味着每两秒钟就会有一个磁盘出现故障。

我肯定计算错了什么。

  1. 如果计算正确,那么 gcp、AWS 如何处理每隔几秒的磁盘替换?

  2. 如果计算错误,我遗漏了什么?

答案1

你的数学错了

(1-0.016)^1000是您能够在整整一年内不发生任何驱动器故障(拥有 1000 个磁盘的池)的概率,但您不能只将 1 年乘以该数字来获得磁盘发生故障所需的时间,这没有意义。

如果 AFR 为 1.6%,则意味着一年内(大约每 22 天)1000 个磁盘中会有 16 个发生故障(不考虑更换的驱动器也发生故障的可能性)

另一种计算方法如下,1 年内驱动器发生故障的概率为 1.6%,平均而言,单个特定驱动器发生故障需要数年时间,因此每 62.5 年累计驱动器年数中预计会出现一次故障。如果分布在 1000 个驱动器上,则实际1/0.016 = 62.5需要 62.5 年驱动器年数,即 22.8 天。62.5/1000 = 0.0625

答案2

有可用的机器人,你可以放入 100 个磁盘,机器人会自动更换故障磁盘

阿里巴巴随后声称已经开发出更好的版本——天巡,这是一种能够更换故障硬盘的人工智能机器人。 https://analyticsindiamag.com/current-state-of-robots-at-the-data-centers/


一些超大规模数据中心也使用集装箱,里面装着所有东西,其中一定数量的硬件可能会出现故障,当出现故障时,他们只需将集装箱运出,再用叉车运入新的集装箱即可。硬盘出现故障几乎总是因为振动问题。云数据中心运行的系统设计非常精良,故障的主要原因是湿度。

相关内容