DWORD 同步丢失会对 SAS 磁盘的健康状况产生什么影响?

DWORD 同步丢失会对 SAS 磁盘的健康状况产生什么影响?

我尝试从错误日志中获取更多信息SAS通过运行以下命令来打印 SAS(SSP)协议特定日志页的值和描述。

# smartctl -d scsi -l sasphy /dev/sg1
Protocol Specific port log page for SAS SSP
relative target port id = 1
  generation code = 79
  number of phys = 1
  phy identifier = 0
    attached device type: end device
    attached reason: power on
    reason: loss of dword synchronization   <======================== (?)
    negotiated logical link rate: phy enabled; 6 Gbps
    attached initiator port: ssp=1 stp=1 smp=1
    attached target port: ssp=0 stp=0 smp=0
    SAS address = 0x5000...
    attached SAS address = 0x5b8...
    attached phy identifier = 6
    Invalid DWORD count = 0
    Running disparity error count = 0
    Loss of DWORD synchronization = 24194   <======================== (?)
    Phy reset problem = 0
...
relative target port id = 2
  generation code = 79
  number of phys = 1
  phy identifier = 1
    attached device type: no device attached
    attached reason: unknown
    reason: unknown
    negotiated logical link rate: phy enabled; 1.5 Gbps
    attached initiator port: ssp=0 stp=0 smp=0
    attached target port: ssp=0 stp=0 smp=0
    attached SAS address = 0x0
    attached phy identifier = 0
...

从上面可以看出,DWORD 同步丢失率很高,根据 IBM,是当物理层停止检测传入的 DWORD 流。我尝试搜索有关此错误的更多信息,但似乎找不到任何信息。

DWORD 同步丢失会如何影响 SAS 磁盘的运行状况?我需要担心吗?我应该在什么阈值水平上监控它?

答案1

此错误不会影响驱动器本身的运行状况。如果您将驱动器移至另一个没有链接问题的机箱,驱动器将不会出现问题。这是假设链接问题不是源自驱动器端口本身。

这些错误意味着驱动器和上游端口之间的连接存在问题,如果电缆有问题,则可能是电缆坏了,如果没有,则意味着其中一个端口有问题。当然,即使有电缆,也可能意味着其中一个端口有问题。

诊断方法是使用同一插槽中的不同磁盘,查看错误是否消失,如果消失,则磁盘已损坏。如果错误仍然存​​在,则原始磁盘没有问题,但服务器/机箱上的端口已损坏,需要更换服务器/机箱。

丢失双字同步的问题在于,这意味着需要对某些已发送的 IO 进行额外的重试,并且由于这些重传,需要等待更多时间才能完成数据传输,从而增加 IO 的延迟。在严重的情况下,可能会发送任务中止,甚至目标重置作为错误恢复的一部分,这将使驱动器在几秒钟内无法访问,并可能导致文件系统发生故障或 raid 丢失磁盘。

相关内容