我正在尝试确定在用于 HDFS 的 3x d2.2xlarge 实例的实例存储上配置 RAID 阵列是否有任何实际优势。最初,我计划只安装每个存储并将其添加为 Hadoop 的附加数据目录。但使用 RAID 0 或 10 配置似乎可以提高一些额外的性能。由于耐用性由 HDFS 本身处理,因此无需从该角度考虑 RAID 1 或 5(例如:如果实例上的一个或所有存储发生故障,则耐用性由来自其他数据节点的复制提供)。RAID 6 似乎不切实际,因为已知重建时间长和 2x 奇偶校验写入导致的吞吐量性能降低(再次,让 HDFS 处理耐用性似乎是最好的)。剩下的 RAID 0 和 10 在理论上都比标准 HDD 具有更好的磁盘 I/O。HDFS 在实例存储的 RAID 阵列上是否会有明显的性能提升?
答案1
老实说,完全不建议使用 RAID 来存储 HDFS。Cloudera 社区门户上有一个主题 -
https://community.cloudera.com/t5/Support-Questions/Should-we-use-RAID-with-Hadoop/td-p/201381
关于这一点。