我们有一台 24/7 全天候运行的 Windows 服务器。
当我开始查看 Windows 事件日志时,我担心了好一阵子。
在那里,我发现了很多实例Kernel Power Event ID 41
:
它表明服务器在一天内多次(主要是在夜间)在崩溃后意外重新启动。
服务器多年来一直运行稳定!
所以我首先假设是最近打了补丁的软件有问题。
但我就是无法找出任何规律——为什么以及什么时候会出现崩溃。
在网上搜索内核电源事件 ID 41,主要指向硬件问题:
PSU 故障、CPU 或内存过热等。
该服务器有LSI MegaRAID 9260-4i
4 个物理硬盘,其中两个分别配置为“RAID 1”。
RAID 控制器日志没有显示任何可疑内容(关于任何物理磁盘有任何问题)。
因此,我目前认为 raid 控制器本身可能有问题。
这个想法得到了以下两个观察结果的支持:
1)
我从 Windows 服务器操作系统“安装 CD”启动。
然后进入恢复选项。
然后选择“从备份恢复”(连接 USB HDD 备份驱动器)。
在恢复过程的某个阶段,它会抛出错误 0x80070002。
如果我切换到命令提示符:将看不到任何驱动器。
2)
与“acronis true image”非常相似。
我从 ATI 恢复 CD 启动。
然后选择备份我的分区。
一切都开始处理。
但在某个时候它抛出了一些错误。
取消备份过程后,然后转到“备份我的磁盘和分区”,一切都是空的!没有显示任何磁盘。
--
以上所有内容使我做出以下假设:
RAID 控制器本身(而不是物理硬盘)一定有缺陷:
在操作过程中逻辑驱动器突然“消失”。
在 Windows 服务器正常运行期间,这会导致操作系统崩溃 - 然后重新启动。
在从 CD 恢复 Windows 备份期间,驱动器突然消失。
在从 CD 备份 ATI 期间,驱动器突然消失。
--
考虑到以上所有情况:
是否可以安全地假设这些是 RAID 控制器本身损坏的症状?导致问题的原因既不是物理硬盘,也不是任何其他系统组件?
为了解决当前的问题:
最好的选择是用相同的控制器替换当前的 raid 控制器吗?
答案1
IT 最重要的部分是不要惊慌,不要假设。
很多时候,您必须加载 Windows 恢复光盘/安装磁盘或 Acronis 的其他驱动程序才能查看 Raid 配置。Windows 服务器的版本将有助于确定 raid 控制器驱动程序是否已在恢复媒体上。此外,如果您没有从该服务器构建 Acronis 媒体,则它可能没有驱动程序来查看 raid 控制器。
附注:请检查控制面板中的电源配置文件,确保驱动器和系统永远不会进入睡眠或断电状态。这可能不是问题所在,但无论如何都要检查一下。请告诉我们您运行的是哪个版本的 Windows 操作系统。
干杯!
答案2
我是 OP。
我的主要问题是:
考虑到以上所有情况:是否可以安全地假设这些是 RAID 控制器本身损坏的症状?导致问题的原因既不是物理硬盘,也不是任何其他系统组件?
为了解决当前的问题:最好的选择是用相同的控制器替换当前的 RAID 控制器吗?
我对这两个部分的回答如下:是的
我已经用我买的二手“类似”控制器替换了 RAID 控制器。同一品牌,但这次是LSI MegaRAID 9260-8i
。
令人惊讶的是,我只需将现有磁盘(具有现有 RAID 配置)连接到新控制器,就不会遇到任何重大问题。
为了保险起见,这次我额外安装了一个风扇,直接吹在RAID控制器的散热器上。
参考:https://vcojot.blogspot.com/2015/07/lsi-megaraid-hbas-overheating-and-one.html和LSI MegaRAID 预期芯片温度?
服务器再次稳定运行。正常运行时间轻松超过 90 天。