我们有几台戴尔物理服务器也有同样的问题 -FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
从中dmesg
我们可以看到以下内容
[2982241.758445] [<ffffffff81697709>] system_call_fastpath+0x16/0x1b
[2982252.738962] sd 0:0:2:0: [sdc] tag#14 megasas: target reset FAILED!!
[2985405.797192] sd 0:0:2:0: [sdc] tag#102 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797199] sd 0:0:2:0: [sdc] tag#102 CDB: Read(10) 28 00 d7 00 2c e8 00 00 08 00
[2985405.797205] blk_update_request: I/O error, dev sdc, sector 3607112936
[2985405.797214] sd 0:0:2:0: [sdc] tag#104 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797217] sd 0:0:2:0: [sdc] tag#104 CDB: Read(10) 28 00 d7 00 2c f8 00 00 08 00
[2985405.797219] blk_update_request: I/O error, dev sdc, sector 3607112952
[2985405.797477] sd 0:0:2:0: [sdc] tag#97 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797480] sd 0:0:2:0: [sdc] tag#97 CDB: Read(10) 28 00 d7 00 2c b8 00 00 08 00
[2985405.797482] blk_update_request: I/O error, dev sdc, sector 3607112888
[2985405.797493] sd 0:0:2:0: [sdc] tag#103 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797496] sd 0:0:2:0: [sdc] tag#103 CDB: Read(10) 28 00 d7 00 2c f0 00 00 08 00
[2985405.797498] blk_update_request: I/O error, dev sdc, sector 3607112944
[2985405.797508] sd 0:0:2:0: [sdc] tag#96 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797511] sd 0:0:2:0: [sdc] tag#96 CDB: Read(10) 28 00 d7 00 2c b0 00 00 08 00
[2985405.797513] blk_update_request: I/O error, dev sdc, sector 3607112880
[3443407.164780] sd 0:0:2:0: task abort: FAILED scmd(ffff881ff7b43100)
[3443433.877426] sd 0:0:2:0: tag#49 megasas: target reset FAILED!
根据 redhat 的说法,根本原因是:(https://access.redhat.com/solutions/438403)
• 当驱动程序检测到未报告的硬件问题时,会为驱动程序内的单个io 请求设置DID_ERROR 主机状态。
决议是:
请联系存储供应商寻求帮助。
请检查系统硬件、交换机错误计数器等,看看是否有任何迹象表明问题可能出在哪里。
驱动程序报告它正在从存储中接收到奇怪的、意外的或无效的信息。
当驱动程序检测到未报告的硬件问题时,会为驱动程序内的单个 io 请求设置 DID_ERROR 主机状态。这包括存储控制器内的通信和固件问题以及其他基于硬件的问题。
FC 适配器:在来自存储的光纤通道响应帧中,存在冲突数据。这表明 SAN/存储中存在问题,而不是 RHEL 或其驱动程序中存在问题。
LSI 适配器:scsi io 命令无法在控制器内完成(挂起)。这与返回状态的 scsi 失败不同,甚至与控制器能够中止 io 的干净 io 超时问题不同。这通常会导致设备丢失以及 DID_BAD_TARGET 的后续错误,当 HBA 返回的设备状态为 LD_OFFLINE(逻辑设备存在,但不响应命令)或 DEVICE_NOT_FOUND(设备不再存在于硬件中)时,会返回这些错误。
所以基于上述我们迷失了,因为我们不确定是否需要更换硬件机器本身,或者只更换sdc磁盘或其他东西
我会;感谢您就我们的案件获得任何建议,
答案1
sdc
服务器中的磁盘快要死了。
smartctl -a /dev/sdc
会让您通过序列号来识别它。
由于您可能正在运行 RAID,因此必须采取预防措施才能将其删除并安装替换件。