我无法在我们服务器的磁盘上运行 SMART 测试,也无法确定它们是否支持此功能(CentOS 7.2)。
短篇故事:我们拥有一组相同的服务器,它们都组装在一个大数据集群中。其中一台服务器的磁盘被重新安装为只读(大约平均一周两次)。
我想对这些磁盘运行 SMART 测试,以找出此重复问题的根本原因,但我无法运行 SMART 测试。当我只想获取信息时,它很好:
[root@bigd08 ~]# smartctl -i /dev/sdj
smartctl 6.2 2017-02-27 r4394 [x86_64-linux-3.10.0-327.el7.x86_64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Vendor: HP
Product: LOGICAL VOLUME
Revision: 4.52
User Capacity: 6,001,141,571,584 bytes [6.00 TB]
Logical block size: 512 bytes
Physical block size: 4096 bytes
Lowest aligned LBA: 0
Logical Unit id: 0x600508b1001c3738fab048c29ade60d9
Serial number: PDNNK0BRH510G6
Device type: disk
Local Time is: Tue Dec 19 13:51:32 2017 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
Temperature Warning: Disabled or Not Supported
嗯,上面显示“已启用”。如果我想获取完整信息:
[root@bigd08 ~]# smartctl --all -d scsi /dev/sdj -H
smartctl 6.2 2017-02-27 r4394 [x86_64-linux-3.10.0-327.el7.x86_64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Vendor: HP
Product: LOGICAL VOLUME
Revision: 4.52
User Capacity: 6,001,141,571,584 bytes [6.00 TB]
Logical block size: 512 bytes
Physical block size: 4096 bytes
Lowest aligned LBA: 0
Logical Unit id: 0x600508b1001c3738fab048c29ade60d9
Serial number: PDNNK0BRH510G6
Device type: disk
Local Time is: Tue Dec 19 10:47:10 2017 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
Temperature Warning: Disabled or Not Supported
=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK
Error Counter logging not supported
Device does not support Self Test logging
或者尝试测试:
[root@bigd08 ~]# sudo smartctl -t short /dev/sdj1
smartctl 6.2 2017-02-27 r4394 [x86_64-linux-3.10.0-327.el7.x86_64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
Short offline self test failed [unsupported scsi opcode]
我还尝试运行命令,选择 scsi 作为设备类型,并处于宽容模式,但输出相同。但是,我没有尝试其他可能的设备类型:ata、sat[,auto][,N][+TYPE]、usbcypress[,X]、usbjmicron[,p][,x][,N]、usbsunplus、marvell、areca、N/E、3ware、N、hpt、L/M/N、megaraid、N、cciss、N、auto、test
(“测试”选项显示它们是 scsi)我应该尝试它们吗?我尝试从以下输出中获取一些线索:
root@bigd08 ~]# lspci -knn | grep 'RAID bus controller'
03:00.0 RAID bus controller [0104]: Hewlett-Packard Company Smart Array Gen9 Controllers [103c:3239] (rev 01)
07:00.0 RAID bus controller [0104]: Hewlett-Packard Company Smart Array Gen9 Controllers [103c:3239] (rev 01)
没有,我没得到任何线索。我仍然想相信他们支持 SMART。它们是今年年初购买的,现在不是 2017 年吗?他们一定有!磁盘是 HP 品牌,服务器和 RAID 控制器也是,但制造商是 Seagate (ST6000NM0024)。
我查看了产品手册,看到一些内容表明支持 SMART。 希捷手册截图
但我不知道它提到了哪些位以及如何从命令行检查它们。我假设它们是我从运行的第一个 smartctl 命令中看到的位:“可用”、“已启用”。
互联网上有很多与我的情况类似的主题,但大多数都是关于 USB 磁盘的,而被忽略了。
我很感激任何帮助我获得稳定磁盘的帮助。我也接受你关于为什么它们如此频繁地变成只读的评论。