偶尔,我们会在某个磁盘上遇到输入/输出错误。
我们的服务器(DELL PowerEdge R720,Ubuntu 14.04)使用Perc H710Raid 控制器,并且产生错误的磁盘是戴尔 600GB SAS 6Gbps 15k 3.5 英寸磁盘。
我们总是可以使用来修复错误fsck.ext4
,但我们不知道是什么原因导致这些错误发生。
我们已将服务器固件更新至最新版本,并运行了我们能想到的所有测试。
我们还能做什么来找到问题的根源?
编辑:
我们大约一周前联系了 DELL,在他们指导我如何运行几个测试后,他们得出结论:服务器没有问题,并且测试中没有出现任何异常。
我无法为该设备启用 SMART 支持:
$ sudo smartctl -a /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-55-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Vendor: DELL
Product: PERC H710
Revision: 3.13
User Capacity: 1,199,101,181,952 bytes [1.19 TB]
Logical block size: 512 bytes
Logical Unit id: 0x6b8ca3a0f210dc0019eead8c1111fb0a
Serial number: 000afb11118cadee1900dc10f2a0a38c
Device type: disk
Local Time is: Wed Jul 8 10:47:35 2015 IDT
SMART support is: Unavailable - device lacks SMART capability.
=== START OF READ SMART DATA SECTION ===
Error Counter logging not supported
Device does not support Self Test logging
我尝试过:
$ sudo smartctl -s on /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-55-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF ENABLE/DISABLE COMMANDS SECTION ===
unable to fetch IEC (SMART) mode page [unsupported field in scsi command]
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
另外,我不确定该怎么做(谷歌搜索没有帮助):
$ sudo hdparm -I /dev/sda
/dev/sda:
SG_IO: bad/missing sense data, sb[]: 70 00 05 00 00 00 00 0d 00 00 00 00 20 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
ATA device, with non-removable media
Standards:
Likely used: 1
Configuration:
Logical max current
cylinders 0 0
heads 0 0
sectors/track 0 0
--
Logical/Physical Sector size: 512 bytes
device size with M = 1024*1024: 0 MBytes
device size with M = 1000*1000: 0 MBytes
cache/buffer size = unknown
Capabilities:
IORDY not likely
Cannot perform double-word IO
R/W multiple sector transfer: not supported
DMA: not supported
PIO: pio0
欢迎任何建议!
答案1
您的 RAID 中有一个驱动器出现故障,并偶尔产生错误?听起来像是硬件问题,而且情况可能会变得更糟。您应该考虑更换驱动器。是的,这很昂贵,但您的时间值多少钱?如果整个驱动器在不合时宜的时刻出现故障,那会有多糟糕?
答案2
您可以通过磁盘实用程序查看各个磁盘的 SMART 信息吗?查看故障前检查,看看是否有任何异常。这将表明物理设备出现故障。
产生错误的磁盘是否与其他磁盘位于同一个 RAID 组中?如果不是,则可能是文件系统而不是驱动器,或者根据布局,可能是控制器(缓存错误、固件不匹配)。我还会检查磁盘和控制器上的固件版本,看看它们是否严重过时。
此控制器上还有其他相同类型的磁盘吗?它们是否具有相同的固件等?
答案3
您收到了哪些具体错误?
我建议尝试从 PERC 控制器获取更多信息。使用 Ubuntu,您可能无法安装 Dell 的 OMSA 进行监控和管理。
你可能会安装 MegaCLI并使用它来导出控制器日志以获取有关正在发生的事件的更多信息。
您没有联系戴尔支持的原因是什么?该服务器型号看起来足够新,我估计它仍在保修期内……