在某些情况下,“企业”驱动器可以安全地被近线/中线驱动器取代吗?

在某些情况下,“企业”驱动器可以安全地被近线/中线驱动器取代吗?

在指定服务器时,就像(我认为)许多不是存储专家的工程师一样,我通常会采取安全措施(也许会成为营销的奴隶),将至少 10k SAS 驱动器(因此是“企业”级,具有 24x7 工作周期等)标准化为“系统”数据(通常是操作系统,有时是应用程序),并保留 7.2k 中/近线驱动器用于存储性能不是重要因素的非系统数据。所有这些都假设 2.5 英寸(SFF)磁盘,因为 3.5 英寸(LFF)磁盘仅与高容量、低 IOP 要求真正相关。

在非系统数据量不大的情况下,我通常会将其放在与系统数据相同的磁盘/阵列上,这意味着服务器只有 10k SAS 驱动器(目前通常是“一个大 RAID10”类型的设置)。只有当非系统数据量很大时,我才会考虑将其放在单独的 7.2k 中/近线磁盘阵列上,以降低每 GB 成本。

这让我不禁想问:在某些情况下,RAID10 阵列中的 10k 个磁盘是否可以用 7.2k 个磁盘替换而不会产生任何重大的负面后果?换句话说,我是否有时会通过坚持使用最低 10k 个“企业”级磁盘而过度指定(并让硬件供应商满意),或者是否有充分的理由始终坚持使用最低限度?

例如,假设一个服务器充当虚拟机管理程序,为一家典型的小公司(比如 50 个用户)提供几个虚拟机。该公司的 I/O 模式一般,没有特殊要求。典型的周一到周五 9-5 办公时间,每晚备份运行几个小时。虚拟机可能是 DC 和文件/打印/应用服务器。该服务器有一个 RAID10 阵列,有 6 个磁盘用于存储所有数据(系统和非系统数据)。以我这个非专业人士的眼光来看,中/近线磁盘似乎就足够了。以 HP 磁盘为例:

  • 工作负载:中线磁盘的额定工作负载小于 40%。由于办公室每天只开放 9 个小时,并且在此期间的平均 I/O 不太可能达到最大值,因此工作负载不太可能超过 40%。即使晚上有几个小时的密集 I/O 用于备份,我猜它仍会低于 40%
  • 速度:虽然磁盘只有 7.2k,但通过将其分散到六个磁盘上可以提高性能

所以,我的问题是:坚持至少 10k 个 SAS 驱动器是否明智,或者 7.2k 个中线/近线磁盘实际上在许多情况下已经足够了?如果是这样,我该如何判断界限在哪里,避免成为无知的奴隶,谨慎行事?

我的经验主要是使用 HP 服务器,因此上述内容可能有点偏向 HP,但我认为这些原则与供应商基本无关。

答案1

这里是服务器设计、磁盘技术和经济学的一个有趣的交集:

另请参阅:为什么大尺寸(LFF)磁盘仍然相当流行?

  • 向密集机架式和小型服务器的转变。例如,您不再看到主要制造商提供许多塔式产品,而更密集的产品线则享有更频繁的修订和更多的选择/可用性。
  • 3.5 英寸企业级 (15k) 磁盘开发停滞不前 – 600GB 15k 3.5 英寸几乎是目前所能达到的最大尺寸。
  • 2.5 英寸近线 (7.2k) 磁盘容量进展缓慢 - 2TB 是您能找到的最大容量。
  • 大容量 SSD 的可用性提高且价格降低。
  • 将存储整合到共享存储中。需要高容量的单服务器工作负载有时可以通过 SAN 来提供服务。
  • 全闪存和混合存储阵列的成熟,加上存储初创企业的涌入。

这就是为什么您通常会发现制造商专注于带有 8-24 个 2.5 英寸磁盘驱动器托架的 1U/2U 服务器。

3.5 英寸磁盘适用于低 IOP 高容量用例(2TB+)。它们最适合外部存储机柜或以某种形式的缓存为前端的 SAN 存储。在企业 15k RPM 速度下,它们最多只能提供 600GB。

2.5 英寸 10k RPM 旋转磁盘可满足更高的 IOPS 需求,容量通常高达 1.8TB。

2.5 英寸 7.2k RPM 旋转磁盘不值得购买,因为它们既不提供容量,性能,寿命,也不提供价格优势。例如,900GB SAS 10k 驱动器的成本与 1TB 7.2k RPM SAS 的成本非常接近。鉴于价格差异很小,900GB 驱动器更值得购买。在以下示例中1.8 TB 10k SAS相对2.0 TB 7.2k SAS,价格也很接近,保修期分别是3年和1年。

因此,对于服务器和 2.5 英寸内部存储,请使用 SSD 或 10k。如果您需要容量并且有内部或外部可用的 3.5 英寸驱动器托架,请使用 7.2k RPM。

对于您描述的用例,您没有过度配置服务器。如果它们有 2.5 英寸驱动器托架,您实际上应该只使用 10k SAS 或 SSD。中线磁盘在性能、容量方面有所损失,保修期明显缩短并且不会节省太多成本。

答案2

至少有几件事可以导致某些驱动器类型出现问题:

  • 驱动器不能承受具有多个驱动器的底盘的振动负载(任何指定为具有 RAID/NAS 功能的驱动器都不太可能出现问题)

  • 固件不允许 TLER,或者需要耗时手动重新配置驱动器才能启用它(同上)

  • 从未使用 RAID 控制器测试过的驱动器,在这样的设置中可能会出现无法识别的错误

  • 内部驱动器写入缓存的行为方式(物理写入无序或非常延迟)在硬关机的情况下会造成很多混乱(应配置 RAID 控制器以强制关闭这些缓存。如果固件忽略了这一点,则可能会出现问题。请参阅未经测试的驱动器 :)

  • 驱动器可能偶尔会执行内部维护例程,这可能会导致驱动器运行缓慢,或响应延迟足够长,从而使 RAID 控制器认为它发生故障(与 TLER 相关)

  • SATA 总体而言,与 SAS 相比,其对完全损坏或挂起的电子元件的驱动器的安全保护较少一切在控制器上(不是理论上的风险,某些磁盘+控制器品牌组合喜欢这种故障模式)。

答案3

巨大的问题:

(可能有点题外 - 但重要!

当你处理 SSD 时(通常是这种情况,或者可能是这种情况或诱惑) -很多SSD 有一个严重的问题,即它们无法从突发断电中恢复!

这是一个微小的HDD 的问题。HDD 通常具有足够的电容来为其逻辑供电,并且具有足够的角动量来使盘片完成 512 字节块的写入 - 以防在写入过程中断电。一旦发生稀有的同时,这将不是工作,导致所谓的“写入中断”——单个块可能被部分写入。部分写入(虽然很少见)将导致块的校验和失败——即单个块将是坏的。这通常可以由磁盘电路本身检测为坏的,并由上游 RAID 控制器进行纠正。

SSD 则不同。它们通常会实现所谓的“磨损均衡”——它们不会像 HDD 那样将“块 X”写入“块 X”的物理位置。相反,它们会尝试写入不同之处闪存介质上的位置 - 它们会尝试聚合或组合写入(使用一些缓冲)。写入不同位置需要保留写入内容的“地图”,该地图也会以旨在减少磨损均衡的方式进行缓冲和写出。磨损均衡的一部分甚至可能涉及移动设备上已有且最近尚未写入的数据。

问题是,当 SSD 断电时 - 它的内存中会有很多数据(未刷新),有些数据已被写入不同/更改的位置 - 并且它在自己的内存中有这些映射,需要刷新才能了解设备上所有数据的结构。

许多SSD 没有逻辑或电路能够在突然断电时保持控制器正常运行足够长的时间,以便在闪存损坏之前安全地将所有这些数据刷新到闪存中。这不仅意味着您写入的那个块现在可能处于危险之中,而且其他块——甚至全部设备上的块可能会出现问题。许多设备还存在问题,它们不仅会丢失全部设备上的数据,但设备本身变得僵硬且无法使用。

这都是正确的理论 - 但是(在存储行业工作) - 我/我们已经看到这种情况在太多设备上发生太多次了 - 包括在我们自己的一些个人笔记本电脑中!

许多供应商都讨论过制造“企业级 SSD”,其中专门添加设备(“超级电容”)和其他电路以实现干净的“冲洗” - 但很难找到任何设备具体来说其数据表指出,它具有足够的、明确的、经过测试的保护措施来抵御此类事件,并且将防止此类事件发生。

显然,如果你从一家采用闪存技术的顶级供应商那里购买了“高端存储阵列”,那么他们的驱动器——或整个系统已将所有这些考虑在内。确保它已考虑到!

你的问题是:如果你有一个 RAID 阵列 - 并且其中几个磁盘是没有这种保护的“坏”SSD - 如果你遇到“自发断电” - 你可能会失去全部数据多种的磁盘导致 RAID 重建不可能。

“但我用的是 UPS”

通常还需要注意的是,“自发性断电”可能包括 BSOD 和内核锁定/崩溃/崩溃等情况 - 您无法选择通过拔掉系统插头来恢复。

相关内容