向开发人员和其他用户解释存储问题的最佳方式是什么

向开发人员和其他用户解释存储问题的最佳方式是什么

当服务器存储空间不足时,开发人员都会开始抱怨,“我可以在沃尔玛花 100 美元买到 1 TB 的硬盘,这有什么问题”。

如何向开发人员解释存储的复杂性,以便他们理解为什么沃尔玛的 1 TB 硬盘无法工作。

附言:我是一名开发人员,也想知道:)

答案1

关于存储的一些真相,或者为什么企业存储如此昂贵?

消费级硬盘提供大量空间,因此即使是最挑剔的流媒体用户也能购买到足够存储数 TB 数据的硬盘。事实上,几十年来,磁盘容量的增长速度一直快于硅片上晶体管数量的增长速度。

“企业”存储是一个稍微复杂一些的问题,因为数据具有性能和完整性要求,这决定了采用更重量级的方法。数据必须保证在发生硬件故障时仍然可用,并且可能必须与大量用户共享,这将产生比单个用户更多的读/写请求。

解决这一问题的技术解决方案每 GB 的成本可能比消费级存储解决方案高出许多倍。它们还需要物理维护;必须进行备份并经常将其存储在异地,以免火灾毁坏数据。这个过程会增加持续的成本。

表现

在您的 1TB 消费级或企业级近线驱动器上,您只有一个磁头。磁盘以 7200 RPM 或每秒 120 转的速度旋转。这意味着您理论上每秒最多可以进行 120 次随机访问 I/O 操作*,而实际上会少一些。因此,在单个 1TB 卷上复制大型文件相对较慢。

在具有 14 个 72GB 磁盘的磁盘阵列上,有 14 个磁头以(例如)15,000 RPM 或每秒大约 250 转的速度旋转磁盘。这为您提供了每秒最多 3,500 次随机 I/O 操作的理论最大值*(同样,实际上会少一些)。在其他所有条件相同的情况下,文件复制将快很多倍。

*如果读取的几何结构允许驱动器移动磁头并读取在磁盘旋转一圈内恰好可用的扇区,则磁盘每旋转一圈可以进行多次随机访问。如果磁盘访问分散,则平均访问次数可能少于一次。对于采用条带(见下文)布局格式化的磁盘阵列,在大多数情况下,磁盘每旋转一圈最多可以进行一次条带读取,并且(取决于 RAID 控制器)平均可能少于一次。

7200 RPM 1TB 驱动器在顺序 I/O 方面可能相当快。以条带方案格式化的磁盘阵列(RAID-0、RAID-5、RAID-10 等)通常每转磁盘最多可以读取一个条带。使用 64K 条带,我们可以从 15,000 RPM 磁盘每秒读取 64Kx250 = 16MB 左右的数据。这在 14 个磁盘的阵列上提供了大约 220MB/秒的顺序吞吐量,从理论上讲,这并不比现代 1TB SATA 磁盘的 150MB/秒左右快多少。

以视频流为例,RAID-0 中的 4 个 SATA 磁盘阵列具有较大的条带大小(某些 RAID 控制器将支持高达 1MB 的条带大小),具有相当高的连续吞吐量。这个例子理论上可以传输大约 480MB/秒的数据,这足以轻松进行实时未压缩的高清视频编辑。因此,Mac Pro 和类似硬件的用户可以执行高清视频合成任务,而几年前,这需要一台带有直接连接光纤阵列的机器才能完成。

磁盘阵列的真正优势在于数据库工作,其特点是大量小而分散的 I/O 请求。在这种类型的工作负载中,性能受到磁盘中金属位来回移动的物理延迟的限制。此指标称为 IOPS(每秒 I/O 操作数)。您拥有的物理磁盘越多(无论容量如何),理论上可以执行的 IOPS 就越多。IOPS 越多意味着每秒处理的交易越多。

数据的完整性

此外,大多数 RAID 配置都提供一定的数据冗余 - 根据定义,这需要多个物理磁盘。具有此类冗余的存储方案与大量驱动器的组合使系统能够可靠地处理大量事务工作负载。

磁盘阵列(以及更极端情况下的 SAN)的基础设施并不是大众市场产品。此外,它是真的真的不会失败。这种建造标准和较小市场容量的结合并不便宜。

包括备份在内的总存储成本

实际上,维护 1TB 数据的最大成本可能是备份和恢复。磁带驱动器和 34 套 SDLT 或 Ultrium 磁带,用于完整的备份和恢复周期,其成本可能高于 1TB 磁盘阵列。再加上异地存储的成本和甚至单个磁带管理员的薪水,您的 1TB 数据突然就不那么便宜了。

磁盘成本通常位于主要存储成本的较低层次。我曾在一家银行工作,那里的 SAN 存储成本为 900 英镑/GB(用于开发系统)和 5,000 英镑/GB(用于生产服务器的磁盘)。即使按企业供应商的价格计算,磁盘的物理成本也只是其中的一小部分。我知道的另一个例子是 IBM Shark SAN(配置相对)适中,其成本超过 100 万英镑。仅物理存储成本就约为 9 英镑/GB,相当于 1TB 消费级 HDD 的空间约为 9,000 英镑。

答案2

只要说:“是的,我可以以每小时 5 美元的价格在海外聘请一名 Java 程序员。”

答案3

也许可以问他们几个关于沃尔玛购物活动的问题:

  • 其平均故障时间是多少?
  • 如果它发生灾难性故障会发生什么?
  • 多久备份一次?
  • 12 个月的备份需要多少存储空间?
  • 如何进行异地备份?
  • 如何恢复?(全部恢复?单个文件恢复?几个目录恢复?)
  • 存储备份需要花费多少钱?
  • 他将如何保证备份的安全?稳妥?
  • 他有什么保险可以弥补重要数据的丢失?

... 将这些答案与在管理良好的数据中心中作为 RAID 5 阵列的一部分运行的驱动器进行比较。

(披露:我也是一名开发人员——我只是猜测!)

答案4

关于存储,人们需要意识到的第一件事是容量和 IOPS 之间存在很大差异。耐用性等问题通常没有实际意义,几乎总是归结为 IOPS 与容量。

相关内容