存储问题 - 无效的 DWORD 计数 - 如何排除故障

存储问题 - 无效的 DWORD 计数 - 如何排除故障

希望有更多知识的人能够为我指明正确的方向!

服务器出现问题,我认为可能与 RAID 控制器\背板\电缆有关,但需要一些建议。

以下是详细信息 -

服务器 - Dell Poweredge R410 存储 - 250GB RAID 1 阵列 RAID 控制器 - Dell SAS IR/6 (LSI Logic SAS1068) 操作系统 - Ubuntu 服务器 14.04 (x64)

问题摘要 -

最近,服务器开始出现内核崩溃,需要重新启动才能恢复服务。偶尔会看到“拒绝离线设备的 I/O”记录到 TTY 输出中。我认为底层存储会间歇性地离线,有时会导致操作系统出现内核崩溃。

RAID 阵列运行正常且同步 -

ioc0 vol_id 0 type IM, 2 phy, 232 GB, state OPTIMAL, flags ENABLED
ioc0 phy 1 scsi_id 1 ATA      WDC WD2500AAJS-7 3E02, 232 GB, state ONLINE, flags NONE
ioc0 phy 0 scsi_id 8 ATA      WDC WD2500JS-75N 2E04, 232 GB, state ONLINE, flags NONE

查看 SAS 诊断时,我偶尔会看到 INVALID DWORD 计数器增加。

Adapter Phy 0:  Link Up
  Invalid DWord Count                                       1,962
  Running Disparity Error Count                             1,772
  Loss of DWord Synch Count                                     0
  Phy Reset Problem Count                                       2

Adapter Phy 1:  Link Up
  Invalid DWord Count                                       1,402
  Running Disparity Error Count                             1,342
  Loss of DWord Synch Count                                     0
  Phy Reset Problem Count                                       0

我重置了这些统计数据..重置计数器后第一次启动服务器后,“Adapter Phy 1”显示以下内容 -

Adapter Phy 1:  Link Up
  Invalid DWord Count                                       1,402
  Running Disparity Error Count                             1,342

适配器 Phy 0 两次计数均显示 0。

服务器已运行 4 天。今天早上检查计数器时,我发现适配器 Phy 1:计数稳定,但适配器 Phy 0 的无效 DWORD 计数已增加到 -

Adapter Phy 0:  Link Up
  Invalid DWord Count                                       1,962
  Running Disparity Error Count                             1,772
  Phy Reset Problem Count                                       2

此外,PHY 重置问题数量已增加到 2,但我并不完全了解这其中的含义。

目前服务器没有出现任何异常迹象,但根据最近的经验,其内核再次崩溃只是时间问题。

无效的 DWORD 计数和 PHY 重置是否表明存在布线 \ 背板问题(因为 RAID 控制器已经被更换)或者我还应该考虑其他什么?

干杯

相关内容