如何安全地使用存储精简配置?

如何安全地使用存储精简配置?

我有存储,允许我对提供给客户端的卷进行精简配置。这安全吗?最佳做法是什么?

答案1

一般来说,无论您谈论的是 SCSI LUN(SAN)还是网络文件系统(NAS),精简配置存储是指您告诉存储客户端它拥有的空间比您实际分配给它的空间要多。这本身没有风险,但如果您没有足够的实际存储空间来让每个容器都增长到承诺的大小,这就称为过度配置,这会带来风险。

优点

过度配置和精简配置的优势非常引人注目。许多存储消费者(服务器、文件共享用户等)将请求比他们最初需要的更多的存储空间,并继续确保他们在增长时拥有安全的增长余地。集中配置的安全增长余地比数百个小的存储空间效率更高。没有精简/过度配置的底层存储的利用率可能非常低,这允许更高的利用率。

风险

此场景的所有风险都与过度配置有关。过度配置越多,风险就越高。危险在于存储资源的利用率可能会完全填满可用存储空间,这通常会导致所有存储容器以某种方式发生故障。文件系统将变为只读或脱机,LUN 将脱机。

最佳实践

为了获得过度配置带来的更高利用率的好处并降低风险,您需要不断监控存储并能够在需要时采取行动。

  • 使用软件来监控和警告池利用率情况。如果没有可以执行此操作的软件,请自己编写。大多数存储都支持 CLI 命令,这些命令可以通过您安排频繁运行的脚本读取。频率应该足够高,以使您的池在轮询事件之间都无法填满。
  • 建立基线阈值。所有具有过度配置客户端的新存储池都应默认应用此阈值。此阈值应该是您环境中最保守的阈值。
  • 对于较小的池,请使用较低的阈值。如果您在 100TB 池上给出 30% 的警告,则您有比在 10TB 池上给出 30% 的警告更多的时间来添加磁盘,假设它们都能够以相同的速度接收写入。
  • 如果过度配置较少,请调高阈值。如果您的池仅过度配置了 106%,则达到 70% 的利用率并不像过度配置 200% 的池那样危险。
  • 根据您需要为池添加空间的时间调整阈值。在我的商店中,我们在每个箱子中保留在线存储,以备任何池中的增长,并在架子上放置更多存储,随时可以安装到任何存储箱中。我们这样做是为了存储足够多的存储类型,以便我们能够处理任何池中的增长。
  • 只要可能且适用,就精简您的存储。重复数据删除可以降低您的利用率,如果您使用 LUN,那么零页回收和能够在删除数据时执行存储取消分配的客户端都会有所帮助。

答案2

精简配置的意义和目的与首先使用整合存储的原因类似 - 通过整合,您可以获得更好的峰值容量,同时所需的平均容量更低。

但不要抱有幻想——精简配置就是假装分配某些东西,但实际上并没有这样做。它很有用的原因有很多。两个关键原因是:

  • 利用率更高 - 除非您的卷已完全填满,否则磁盘空间就被浪费了。大多数系统不会一直以 100% 满的状态运行(如果是,通常认为它们“有问题”)。

  • 延期支出 - 如果我今天给您 10TB,但您每年用掉 2TB,那么如果我等一等再购买磁盘,我可能支付的费用会更少。

然而,由此产生两个问题:

  • 磁盘耗尽太快——开始填充“他们的”磁盘的人可能会导致企业其余部分的空间耗尽。

  • 主轴数 - 购买更少的磁盘意味着您拥有的主轴更少,因此 IOP 也更少。这意味着您的磁盘运行时会更热,性能会更差。

我建议精简配置的最佳实践如下:

  • 让管理层认识到所涉及的风险。
  • 设定“可接受的”超额认购率。(这是一个有商业风险的决策,因此请向上级提交)。
  • 还要考虑单个卷的大小。20TB 卷比大量 100GB 卷更容易占用空间。
  • 当容量开始不足时(基于“可用空间”或“卷大小”),请准备好容量(或采购订单)。您不会收到即将用完的警告,并且您可能等不及下一季度/财政年度再填补 - 您不会再购买新容量,而是填补已经“售出”的东西。
  • 考虑存储系统的理论最大容量。仔细考虑如果超过该容量该怎么办。
  • 密切关注您的性能。IOPS/吞吐量都一样。您可能无法得到“您需要多少性能”问题的良好答案。但您可能会发现您的性能“耗尽”速度比您预期的要快。为此也设置一个阈值。
  • 相应地考虑您的收费。您可以通过精简配置节省资金,但您需要收回其中的一部分资金才能跟上您的精简配置模型。

最后一点我怎么强调都不为过。您很可能有客户要求存储但从不使用。这是您没有花掉的钱,代表着节省。然而,这与需要一段时间(例如超过一个财年)才能使用它的客户不同 - 您可以通过明年购买更大/更便宜的磁盘来省钱。但您不能预先“出售”空间,然后只是希望没有人曾经使用过。随着时间的推移,您最终可能会填满所有内容,并且您需要准备好回填。

相关内容