我尝试从错误日志中获取更多信息SAS通过运行以下命令来打印 SAS(SSP)协议特定日志页的值和描述。
# smartctl -d scsi -l sasphy /dev/sg1
Protocol Specific port log page for SAS SSP
relative target port id = 1
generation code = 79
number of phys = 1
phy identifier = 0
attached device type: end device
attached reason: power on
reason: loss of dword synchronization <======================== (?)
negotiated logical link rate: phy enabled; 6 Gbps
attached initiator port: ssp=1 stp=1 smp=1
attached target port: ssp=0 stp=0 smp=0
SAS address = 0x5000...
attached SAS address = 0x5b8...
attached phy identifier = 6
Invalid DWORD count = 0
Running disparity error count = 0
Loss of DWORD synchronization = 24194 <======================== (?)
Phy reset problem = 0
...
relative target port id = 2
generation code = 79
number of phys = 1
phy identifier = 1
attached device type: no device attached
attached reason: unknown
reason: unknown
negotiated logical link rate: phy enabled; 1.5 Gbps
attached initiator port: ssp=0 stp=0 smp=0
attached target port: ssp=0 stp=0 smp=0
attached SAS address = 0x0
attached phy identifier = 0
...
从上面可以看出,DWORD 同步丢失率很高,根据 IBM,是当物理层停止检测传入的 DWORD 流。我尝试搜索有关此错误的更多信息,但似乎找不到任何信息。
DWORD 同步丢失会如何影响 SAS 磁盘的运行状况?我需要担心吗?我应该在什么阈值水平上监控它?
答案1
此错误不会影响驱动器本身的运行状况。如果您将驱动器移至另一个没有链接问题的机箱,驱动器将不会出现问题。这是假设链接问题不是源自驱动器端口本身。
这些错误意味着驱动器和上游端口之间的连接存在问题,如果电缆有问题,则可能是电缆坏了,如果没有,则意味着其中一个端口有问题。当然,即使有电缆,也可能意味着其中一个端口有问题。
诊断方法是使用同一插槽中的不同磁盘,查看错误是否消失,如果消失,则磁盘已损坏。如果错误仍然存在,则原始磁盘没有问题,但服务器/机箱上的端口已损坏,需要更换服务器/机箱。
丢失双字同步的问题在于,这意味着需要对某些已发送的 IO 进行额外的重试,并且由于这些重传,需要等待更多时间才能完成数据传输,从而增加 IO 的延迟。在严重的情况下,可能会发送任务中止,甚至目标重置作为错误恢复的一部分,这将使驱动器在几秒钟内无法访问,并可能导致文件系统发生故障或 raid 丢失磁盘。