我在服务器上运行了 LSI MegaRAID 9260-16i 卡,它不断记录错误
Controller ID: 0 Transient error detected while communicating with PD: -:-:1
我在任何地方都找不到关于此消息的任何信息(文档、谷歌、论坛等)。此消息是什么意思?
答案1
显然,此错误是由于所用磁盘的类型造成的。LSI 对我的支持单的回复如下:
SAMSUNG HD103UJ 未被认定为兼容硬盘。错误和随后的超时事件是由台式机级硬盘使用的错误报告机制导致的通信问题引起的,台式机级硬盘不适用于 RAID 功能。
我不知道这是一个问题,但在进行了更多测试后,我相信这确实是问题的根源。我更换了背板和 SAS 电缆,但没有成功,并且我对 OS 虚拟磁盘(使用企业级戴尔磁盘)和 DATA 磁盘(使用台式机三星磁盘)进行了“压力”测试,只有在 DATA 磁盘上运行“压力”测试时,我才会收到这些错误。
因此,我认为除了实际购买企业级磁盘(例如 LSI 支持的“Western Digital® RE Enterprise 2TB”)之外,没有其他方法可以解决这个问题。尝试重复使用硬件就到此为止了。
更新(2013 年 3 月 11 日)
控制器运行 2 个阵列,一个使用 WD 企业磁盘的 RAID1 和一个使用 SAMSUNG 台式机磁盘的 RAID6。这个周末 RAID1 阵列降级了。日志中充斥着我原帖中提供的错误消息。奇怪的是 RAID1 阵列使用企业磁盘。难道真的是另一个阵列上的一个 SAMSUNG 磁盘有问题,然后另一个阵列上的一个 WD 磁盘被驱逐了吗?在我看来,这似乎是一种奇怪的行为。
更新(2015 年 5 月 29 日)
我已经处理这个问题有一段时间了。我认为实际原因与电源有关。我将所有 4 个背板连接到同一个电源连接器(使用分流器)。在峰值(功耗)下,磁盘会“掉出来”,因为无法提供足够的电力。我通过简单地将两个电源连接器分别分到两个背板上来解决这个问题。