SSD的硬重置链接CentOS 7

SSD的硬重置链接CentOS 7

我有两个英特尔 SSDSC2CW120A3 固态硬盘在一个超微 X9SCL/X9SCM在 CentOS 7 上设置软件 RAID-1:

Linux hostname.local 3.10.0-957.5.1.el7.x86_64 #1 SMP Fri Feb 1 14:54:57 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux

我一直在dmesgata1 和 ata2 上看到“硬重置链接”,大多数时候我(或我的监控)没有注意到任何停机时间,但有时服务器完全冻结,我必须进行电源重置(不能不再通过 SSH 访问它),根据dmesg重置的输出经常发生:

$ dmesg | grep "hard resetting link"
[161507.540860] ata1: hard resetting link
[161751.123732] ata2: hard resetting link
[161798.132697] ata2: hard resetting link
[161879.126542] ata2: hard resetting link
[161939.134102] ata2: hard resetting link
[162536.225103] ata1: hard resetting link
[164738.176816] ata1: hard resetting link

更多输出来自dmesg

[229999.873718] ata1.00: failed command: WRITE FPDMA QUEUED
[229999.879043] ata1.00: cmd 61/08:f0:28:12:d5/00:00:00:00:00/40 tag 30 ncq 4096 out
     res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[229999.894050] ata1.00: status: { DRDY }
[229999.897815] ata1: hard resetting link
[230000.206411] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[230000.223165] ata1.00: ACPI cmd ef/10:06:00:00:00:00 (SET FEATURES) succeeded
[230000.223179] ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
[230000.231187] ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
[230000.253132] ata1.00: ACPI cmd ef/10:06:00:00:00:00 (SET FEATURES) succeeded
[230000.253137] ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
[230000.261148] ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
[230000.273568] ata1.00: configured for UDMA/133
[230000.277980] ata1: EH complete

我检查了 SATA 电缆,它们看起来没问题,拔掉它们并再次插入,smartctl 报告了一些无法纠正的错误,但除此之外没有什么真正可疑的。此外,也没有可用的内核更新。

在开始更换驱动器或主板之前,我想知道是否还有其他可以检查的地方?我想弄清楚这个问题是硬件问题还是软件问题。

TIA

答案1

“我检查了 SATA 电缆,它们看起来没问题,拔掉它们并重新插入”

我在家也遇到了同样的问题,只能通过更换那些SATA电缆来解决。和你一样,他们看上去身体还好,但内心却出了问题。不要仅通过观察来判断电缆。这些ata错误很烦人,它们几乎可能来自任何地方,甚至来自您的 PSU。例子:

...我首先认为这是 SATA 控制器或电缆的问题,因此我更换了驱动器,但同一驱动器仍然受到影响。然后我认为这与驱动器有关,这让我一度偏离了方向,直到我经常决定重置 BIOS。这样做时,我随机查看了电源电压,12V 电源轨已降至 10.2V 左右……这确实是一次令人烦恼的经历,而且症状具有高度误导性。毕竟驱动器是好的,这只是一个完全不同的问题的表现。从现在开始,我也会定期检查流明传感器的电压......

根据您的具体情况,我将按照以下方式进行故障排除。

首先要做的事情(因为,mdraid):

  • 检查您的 BIOS 内部是否您的磁盘控制器是假RAID,并查看您的设置是否启用了 raid 模式。将其更改为 Sata AHCI 并重新安装系统。这是很常见的知识(甚至红帽也有一份关于)FakeRAID 的 raid 模式可能会搞乱mdraid设置。这不能解决问题,但可以避免近期的麻烦

sata检查后:

  • 更换SATA 电缆。如今它们非常便宜,除非超微在主板侧使用某种“专有”连接器。
  • 更新您的 SSD 和磁盘控制器固件。你的问题 (failed command: WRITE FPDMA QUEUEDEmask 0x4 (timeout))似乎与此高度相关,但与不同的硬件有关:[已解决]“命令失败:WRITE FPDMA QUEUED”ATA 错误
  • 从朋友那里借一个备用电源,注意它的规格,然后尝试更换它。
  • 既然您已经完成了所有基础知识,请联系 supermicro 并尝试针对您的主板的支持案例。
  • 完成所有操作后,更换磁盘。

答案2

在开始更换驱动器或主板之前,我想知道是否还有其他可以检查的地方?

我的家用电脑为 CentOS 7.6,asrock lga1156。有英伟达安装的显卡驱动程序支持 gtx970,进行了内核更新...正如你们所知,nvidia 安装做了一个内核模块它将丢失[除非您使用 dkms]。因此,在我的内核更新之后,我遇到了一些问题,表现为类似的情况

ACHI does not support sleep

{repeated} usb1-2 reset high speed device number 2 using xhci_ncd

重新安装nvidia显卡驱动,问题解决。

如果您没有 Nvidia 驱动程序,请不要忽略以类似方式安装的其他软件内核模块

相关内容