如果 SAN 的支持期限已过,运行该 SAN 将会遇到什么麻烦?

如果 SAN 的支持期限已过,运行该 SAN 将会遇到什么麻烦?

我们正在更换 Clariion CX320 SAN,因为它太旧了(7.5 年)。除此之外,它一直非常可靠。是的,我们更换了很多磁盘、电池模块,甚至可能还更换了一个控制器,但故障率不是很高——大概每九个月才会出现一次问题。

新的 SAN 是具有类似性能特征(IOPS、网络等)的 equallogic。尽管技术更新很多,但实际上并没有太大变化(除非我们想要 10gig 网络或 SSD 磁盘,我本来很想拥有这些,但又无法证明花两倍的价格是合理的)。我认为最大的变化可能是价格点,当时我们为 CX3 支付了 40k,而 equallogic 的价格是其一半,但设置类似。

我想让 CX3-20 继续生产,但我必须证明这款产品能够再使用 4-5 年,且拥有成本不会很高。由于这款产品已经停产,我们必须从 EMC 之外采购零部件(这其实并不坏,因为第三方的零部件非常便宜。唯一的缺点是需要 1-2 天才能拿到零部件,而不是当天几小时内就能拿到)。

所以问题是:真的有人使用这些东西 12 年了,而且它们还和以前一样稳定吗?故障率应该会随着时间的推移而上升,但我没有看到这种情况发生。我们现在有 3 个 SAN,它们已经使用了 7 年以上。我们在 2-5 年的时候出现过问题,但过去 2.5 年的情况还不错。也许我们用 3 个 7 年以上的 SAN 总共更换了 4 个磁盘。

在与经销商/供应商交谈时,我知道有很多人运行着“大量这种寿命已尽的”SAN,但我从未有机会与他们背后的人交谈。他们是否一直在与这种持续不断的头痛作斗争,但他们运行着大量这种东西,却无法证明升级的成本是合理的?或者也许他们是托管公司,他们无法承受迁移虚拟机的停机时间……或者这些东西真的非常坚固,只要你维护它们,它们就会永远存在,而“寿命已尽”只是 EMC 促使我们购买更新设备的方式?

答案1

这是一次规划和设定期望的练习(对于您的用户、企业等)。

我将以服务器为例。当我出售/购买系统时,我计划它的主要使用寿命为 3-5 年。对于现代设备来说,这是一个相当不错的指标,因为在此期间技术通常会有大幅飞跃,并且在此之后升级是有充分理由的。这也是系统故障模式出现的时候。

超过该年限的系统仍然可以使用,但由于缺少零件和支持,旧服务器只能发挥非关键功能或在可以容忍故障的集群中使用。

自从 EMC 被广泛使用以来,存储也发生了变化。我认为 SAN 存储已经变得更加商品化,具有更智能的缓存和性能功能。您可能放弃了很多性能...

至于继续使用旧设备,你可以,但为什么不依靠你已有的新设备呢?你希望通过保留旧设备获得什么好处?

答案2

使用“旧”套件时会遇到的问题:

  • 代码更新:供应商很少会承诺发布旧套件的更新。
  • 更换部件:备件将越来越难获得 - 有时您可以使用较新的部件,但并非总是如此,因为速度/通信模式/协议等会更新。较新的 SFP 不再支持较低的传输速率,诸如此类。
  • 移动部件的故障率:旋转的磁盘会磨损,因此您会开始看到磁盘故障率增加。
  • 基础设施兼容性:供应商喜欢随着时间的推移改变协议。例如,Windows 域控制器弃用了旧式加密协议。

你还付出了机会成本不是升级:

  • 新玩具通常更大、更好、更快。存储无法完全跟上处理器的步伐,但利用闪存驱动器、更大的内存缓存等功能确实有一些非常好的功能。
  • 聘用有经验的人员将变得困难。
  • 当你最终完成转换时,迁移开销会稳步增加,因为“跨越”技术时代的迁移路径并不常见。
  • 一些供应商提供以旧换新交易,原因与汽车零售商大致相同。

我不会说这是个坏主意,但你需要考虑一下你最初购买存储阵列的原因。购买容量通常非常昂贵 - 你所做的是利用性能而不是订阅 - 以相同的“平均值”获得更好的“爆发”。无论是在磁盘层还是缓存层。

由于可靠性的提高,它们的价格也更高——“企业”组件的 MTBF 更长。

这两种情况都会随着时间的推移而逐渐消失。前者是因为目标会发生变化,后者是因为磨损和可用性。

因此,这实际上更多的是可接受风险的问题。对于我的生产套件,其上的数据对我的组织来说远比更换和供应商支持合同的成本重要。

对于我的测试/开发套件,我不太关心。

因此,我建议你将其描述成一条薄弱的条款。它不是节省金钱这是递延支出。您仍然需要更换它。随着它的老化,您将产生额外的开销。您将使更换和迁移变得更加困难。您还承担了遇到无法修复的故障的商业风险。这将需要供应商的支持,他们要么会指指点点,嘲笑你,要么会给你开一张荒谬的账单。或者两者兼而有之。

但您可能会发现,您在此期间节省的钱抵消了成本,而且通过延迟购买,您可以用同样的钱获得更大、更快的产品。

浴缸曲线在此适用: http://en.wikipedia.org/wiki/Bathtub_curve

它非常适用于存储阵列。您可以很好地将其与汽车进行比较 - 随着汽车的老化,维护成本稳步增加,发生故障的几率也随之增加,交易价值下降。如果每隔几个月发生一次故障并需要立即修理是可以接受的,那么您可能会驾驶一辆旧车。但您不会对救护车这样做,因为虽然几率相同,但故障和停机的后果也更高。

答案3

我们的 CX300 也遇到了同样的情况,它的使用年限大致相同(8 年多一点)。我完全同意这一点,那东西非常坚固(那些年我们只更换了几个磁盘,现在一个控制器电池出现故障),但我不会夸大其词。随着我们的存储停止服务,我们决定将其迁移到可靠性不是主要目标的用例(在我们的例子中是备份卷轴)。当然,您的 CX320 有可能在没有太多麻烦的情况下使用很多年,但请记住,8 年在 IT 领域总体上,尤其是对于“移动部件”而言,是相当长的时间。

从经济角度来看,在某个时候(或者已经是了!),维护 CX320 在经济上无法与购买新东西相比(磁盘变得更大,未来 FC 磁盘将不容易获得......)

我的建议是将其放在可靠性并不重要的地方或可以快速且无压力地更换它的地方(例如,将已经内置的新存储保留为“冷备用”)

答案4

老实说,除非 CX-3 上的数据“重要性”使得无法轻松/及时移动,否则就咬紧牙关,迁移到新的数据。

升级的其他好处:1. 由于磁盘尺寸更大、外形更小,因此可以在更小的机架空间内实现更大的存储容量。2. 由于更现代的系统中存在 SSD 和更大的缓存量,因此混合工作负载的性能要好得多。3. 有时确实会出现问题,需要的不仅仅是简单的部件更换。当这种情况发生时,您需要官方供应商的支持。

相关内容