在我的组织中,我们正在考虑购买刀片服务器,而不是机架服务器。当然,技术供应商也让它们听起来很好。我经常在不同的论坛上看到一种担忧,即服务器底盘出现故障的可能性在理论上是存在的,这会导致所有刀片服务器都出现故障。这是由于共享基础设施造成的。
我对这种可能性的反应是具有冗余度并采用两个底盘而不是一个(当然非常昂贵)。
一些人(例如包括 HP 供应商)试图让我们相信,由于存在许多冗余(冗余电源等),底盘不太可能出现故障。
我担心的另一个问题是,如果出现故障,可能需要备件 - 这在我们所在地(埃塞俄比亚)很困难。
因此,我想问问管理过刀片服务器的经验丰富的管理员:您的经验是什么?它们会整体崩溃吗?哪些合理的共享基础架构可能会出现故障?
这个问题可以扩展到共享存储。我再次强调,我们需要两个存储单元,而不是一个 - 供应商也再次强调,这些东西非常坚固,不会发生任何故障。
好吧 - 我几乎不敢相信,如此关键的基础设施在没有冗余的情况下可以非常可靠 - 但也许你可以告诉我,你是否有成功的基于刀片的项目,其核心部件(机箱,存储......)在没有冗余的情况下工作
目前,我们关注 HP — — 因为 IBM 看起来太贵了。
答案1
底盘彻底损坏的概率很小……
在维持满的刀片外壳发生故障。
我的经验主要是惠普 C7000和惠普 C3000刀片机箱。我还管理过戴尔和超微刀片解决方案。供应商有点重要。但总而言之,惠普设备非常出色,戴尔设备也不错,而超微设备质量不佳,弹性差,设计也很差。我从未遇到过惠普和戴尔设备出现故障的情况。超微设备确实出现过严重故障,迫使我们放弃了该平台。在惠普和戴尔设备上,我从未遇到过整个机箱出现故障的情况。
- 我遇到过热事件。共置设施的空调出现故障,导致温度持续 10 小时达到 115°F/46°C。
- 电源浪涌和线路故障:A/B 馈电的一侧丢失。单个电源故障。我的刀片设置中通常有六个电源,因此有足够的警告和冗余。
- 单个刀片服务器发生故障。一台服务器的问题不会影响机柜中的其他服务器。
- 底盘内火...
我见过各种各样的环境,也曾在理想的数据中心条件下以及一些较为恶劣的位置安装过。在 HP C7000 和 C3000 方面,主要要考虑的是机箱完全模块化。组件的设计最大程度地减少了组件故障对整个装置的影响。
可以这样想……C7000 主机箱由前部、(无源)中板和背板组件组成。结构外壳只是将前后组件固定在一起并支撑系统的重量。几乎每个部件都可以更换……相信我,我已经拆解了很多。主要的冗余在于风扇/冷却、电源和网络管理。管理处理器(HP 的 Onboard Administrator) 可以配对以实现冗余,但是服务器可以在没有它们的情况下运行。
满载的机箱 - 正面视图。底部的六个电源贯穿整个机箱,并连接到机箱后部的模块化电源背板组件。电源模式可配置:例如 3+3 或 n+1。因此机箱肯定具有电源冗余。
满载机箱 - 后视图。后部的 Virtual Connect 网络模块具有内部交叉连接,因此我可以断开一侧或另一侧的连接,同时仍保持与服务器的网络连接。有六个热插拔电源和十个热插拔风扇。
空外壳 - 正面视图。请注意,外壳的这一部分实际上什么也没有。所有连接都通过模块化中板。
中板组件。这就是奇迹发生的地方。请注意 16 个独立的下板连接:每个刀片服务器一个。我曾遇到过单个服务器插槽/托架发生故障的情况,但不会损坏整个机箱或影响其他服务器。
电源背板。标准单相模块下方的 3ø 单元。我改变了数据中心的配电,只需更换电源背板即可应对新的供电方式
底盘连接器损坏。这个特殊的机箱在组装过程中掉落,折断了带状连接器的针脚。几天后才发现,导致正在运行的刀片底盘着火......
这是中板带状电缆烧焦的残骸。这控制着部分底盘温度和环境监控。里面的刀片服务器继续运行,没有发生任何故障。受影响的部件在计划停机时间内被我随意更换,一切正常。
答案2
我已经管理少量刀片服务器八年了,还没有遇到过导致大量刀片服务器离线的系统级故障。由于电源相关问题,我差点就遇到过这种情况,但还没有遇到过非外部原因导致的整个机箱级故障。
您观察到机箱确实代表单点故障,这是正确的,尽管如今它们确实内置了大量冗余。我使用过的所有刀片系统都具有并行电源馈送到刀片,并且多个网络插孔通过不同的路径,并且在光纤通道的情况下,从刀片到机架后光纤端口有多条路径。甚至机箱信息系统也有多条路径。
通过适当的网络工程(冗余 NIC 使用、存储的 MPIO),单一问题事件是完全可以避免的。在我使用这些系统的过程中,我遇到过以下问题,这些问题影响的不会超过一个刀片服务器:
- 刀片机架中的两个电源发生故障。其他 4 个电源具有足够的冗余度来支持负载。
- 三相电源丢失一相。这些电源现在很少见,但其他两相有足够的容量来支持负载。
- 丢失机箱间管理环路。这种情况持续了好几年,直到供应商技术人员在另一次通话中注意到了这一点。
- 完全失去机箱间管理环路。我们失去了管理控制台访问权限,但服务器仍在运行,就像一切正常一样。
- 有人意外重启了机架后网络背板。该机箱中的所有设备都使用了冗余 NIC,因此服务没有中断;所有流量都转移到了另一个背板。
TomTom 关于成本的观点非常正确。要实现完全成本平价,您的刀片机箱必须满载,并且可能不会使用机架后交换机等特殊设备。刀片机架在真正需要密度的领域很有意义,因为您的空间有限
答案3
这个问题可以扩展到共享存储。我再次强调,我们需要两个存储单元,而不是一个 - 供应商也再次强调,这些东西非常坚固,不会发生任何故障。
其实不是。到目前为止,您的担忧都是有道理的,这句话将它们归结为“阅读眼前的东西”。具有完全复制的 HA 是存储单元的已知企业功能。重点是 SAN(存储单元)比刀片机箱复杂得多,而刀片机箱最终只是“愚蠢的金属”。刀片机箱中除某些背板外的所有东西都是可更换的 - 所有模块等都是可更换的,并且允许单个刀片发生故障。没有人说刀片中心本身为刀片提供了高可用性。
这与 SAN 有很大不同,SAN 应该 100% 处于运行状态(处于一致状态),因此您有复制等功能。
话虽如此:注意你的数字。我考虑购买刀片已经有一段时间了,但从财务角度来看,购买刀片毫无意义。机箱太贵了,刀片与普通计算机相比也并不便宜。我建议将 SuperMicro Twin 架构作为替代方案。
答案4
导致同一机柜中多个刀片服务器停机的故障与导致同一机架中多个服务器停机的故障具有可比性(在可能性和原因方面)。
初始设置以尽量减少单点故障(两个分离交流电源,每个电源都可以处理整个负载,运行到单独的直流电源,这样任何一半都可以处理整个负载;两个分离网络附件,其中任何一个都可以处理整个预期负载等)与取出机箱中的所有刀片或机架中的所有 2U 服务器之间的差异非常小。