我公司的某个人正在构建一个高性能集群(50 个 CPU 核心、六台机器、每台机器 32 个内存模块)。我们对集群完全没有经验,我们担心这会花费太长时间(超过 2 个月)。每次我联系他时,他都说时间太长是因为硬件故障(几个 CPU/内存模块出现故障)。
我正在寻求一些建议 - 全新集群中多个 CPU 和内存模块发生故障是否正常?或者可能是人为错误?
答案1
CPU 几乎从不发生故障,RAM 也很少发生故障。如果这两种特定类型的硬件存在问题,那么真正的问题可能是制造商遇到了无法预见的兼容性问题。
有了这么多的内存(约 192 个未知大小的模块),可以想象位翻转错误可能会以惊人的频率出现。我希望 RAM 是 ECC,否则这可能是许多延迟和错误启动的根源。