希望有更多知识的人能够为我指明正确的方向!
服务器出现问题,我认为可能与 RAID 控制器\背板\电缆有关,但需要一些建议。
以下是详细信息 -
服务器 - Dell Poweredge R410 存储 - 250GB RAID 1 阵列 RAID 控制器 - Dell SAS IR/6 (LSI Logic SAS1068) 操作系统 - Ubuntu 服务器 14.04 (x64)
问题摘要 -
最近,服务器开始出现内核崩溃,需要重新启动才能恢复服务。偶尔会看到“拒绝离线设备的 I/O”记录到 TTY 输出中。我认为底层存储会间歇性地离线,有时会导致操作系统出现内核崩溃。
RAID 阵列运行正常且同步 -
ioc0 vol_id 0 type IM, 2 phy, 232 GB, state OPTIMAL, flags ENABLED
ioc0 phy 1 scsi_id 1 ATA WDC WD2500AAJS-7 3E02, 232 GB, state ONLINE, flags NONE
ioc0 phy 0 scsi_id 8 ATA WDC WD2500JS-75N 2E04, 232 GB, state ONLINE, flags NONE
查看 SAS 诊断时,我偶尔会看到 INVALID DWORD 计数器增加。
Adapter Phy 0: Link Up
Invalid DWord Count 1,962
Running Disparity Error Count 1,772
Loss of DWord Synch Count 0
Phy Reset Problem Count 2
Adapter Phy 1: Link Up
Invalid DWord Count 1,402
Running Disparity Error Count 1,342
Loss of DWord Synch Count 0
Phy Reset Problem Count 0
我重置了这些统计数据..重置计数器后第一次启动服务器后,“Adapter Phy 1”显示以下内容 -
Adapter Phy 1: Link Up
Invalid DWord Count 1,402
Running Disparity Error Count 1,342
适配器 Phy 0 两次计数均显示 0。
服务器已运行 4 天。今天早上检查计数器时,我发现适配器 Phy 1:计数稳定,但适配器 Phy 0 的无效 DWORD 计数已增加到 -
Adapter Phy 0: Link Up
Invalid DWord Count 1,962
Running Disparity Error Count 1,772
Phy Reset Problem Count 2
此外,PHY 重置问题数量已增加到 2,但我并不完全了解这其中的含义。
目前服务器没有出现任何异常迹象,但根据最近的经验,其内核再次崩溃只是时间问题。
无效的 DWORD 计数和 PHY 重置是否表明存在布线 \ 背板问题(因为 RAID 控制器已经被更换)或者我还应该考虑其他什么?
干杯