我不是 SAN 专家,我在这里写信是为了获取一些关于我们遇到的持续存在的、令人恼火的问题的线索,而我们的供应商似乎无法解决这些问题。
我们拥有一个 ENHANCE ES3160P4 SAN,它有 16 个 2 Tb 磁盘,已为我们的视频监控系统提供。供应商已将 SAN 配置为使用 RAID 5 阵列中的 14 个磁盘,其中 2 个磁盘为全局备用磁盘。RAID 通常分为 2 个大小相等的虚拟磁盘,它们横跨整个 RAID 空间。每个虚拟磁盘的大小都超过 12 Tb。每个虚拟磁盘对应一个 LUN,该 LUN 连接到一个视频服务器,该服务器连续存储视频数据并允许用户在需要时检索记录。LUN 采用 NTFS 格式化,并通过 iSCSI 连接到 Windows Server 2012 视频服务器。视频服务器倾向于充分利用其可用的空间。
在这种配置下,SAN 的磁盘不断出现故障,而且每次 SAN 都无法恢复 RAID,因为与此同时另一个磁盘也出现故障。在过去的几个月里,我们大约有 4 次 RAID 出现故障。
这个问题似乎不是由 SAN 样本不良引起的,因为我们还有另外三台配置相同的机器,它们似乎也有同样的问题。只有一台没有问题,但目前它没有得到充分利用。
经过几个月的未知测试和检查后,供应商最终表示,众所周知,SAN 不应 100% 使用,否则其性能会快速下降,物理性能也是如此,并表示为了解决这个问题,应该创建虚拟磁盘,在 RAID 中留出 10-15% 的总可用空间。
我在网上搜索了这个问题,没有找到具体的陈述。在我看来,创建跨整个 RAID 的虚拟磁盘,然后充分利用 LUN(即允许 Windows 有可用空间并避免碎片化)会更合理。如果不是这样,我不明白为什么 ENHANCE SAN 允许创建跨整个 RAID 的虚拟磁盘,如果它是如此“众所周知”以至于必须留出一些可用空间,以及为什么供应商在开始时这样配置系统……但这是另一回事。
最终,我们希望解决这种情况。任何建议都会被接受。正如我所说,我不是 SAN 专家,但在经历了这么多问题之后,我真的想了解供应商是否知道发生了什么,因为我们再也无法接受这种情况了。
提前致谢!问候
编辑:磁盘类型 从答案来看这似乎是相关信息,我补充说,这些磁盘都是西部数据型号 WD2001FYYG-01SL3。
答案1
根据您的描述,主要的问题是他们决定对如此大的阵列使用 RAID5,这对于此设置来说是一个非常糟糕的选择,原因正如您所经历的:恢复过程中第二个磁盘发生故障会破坏所有内容,而第二次故障很可能会承担这种风险。
如果他们改用 RAID6 等,则恢复过程中第二个磁盘发生故障不会导致阵列故障,并且恢复可以正常进行,但代价是损失一个磁盘的净存储容量并产生一定的性能影响。
我看不出留下 15% 的可用空间对解决这个问题有什么帮助,虽然从文件系统的性能角度来看这可能是也可能不是一个好主意,但这显然与故障的 RAID 无关。我认为这是胡说八道。
尽管如此,我还是忍不住想问:即使对于 RAID5 系统来说,几个月内多次发生这种情况似乎也太过分了。我建议检查一下所使用的磁盘类型 - 可能是您的供应商使用了廉价的台式机驱动器,而不是经过认证可用于此类系统的全天候驱动器。
答案2
我完全理解这是一篇旧帖子,但随着我继续看到生产中的大型 RAID5 阵列,我想在这里添加我的想法。
磁盘频繁发生故障通常是由于过热和/或振动太大,这种情况常见于设计不良的系统或位置不佳的情况
如此大的 RAID5 阵列应该强烈避免。一般来说,很多最好使用 RAID6 阵列,而不是 RAID5 + 热备用阵列。在 OP 案例中,与使用 1x 奇偶校验磁盘和 2x 全局热备用相比,在 RAID6 配置中使用 2x 奇偶校验磁盘要好得多;
拥有一个可靠的错误和状态报告系统是关键:不知不觉中性能下降、未被监控的阵列是灾难的根源。