问题: 我的服务器上出现大量磁盘 IO 错误,这些错误导致多台服务器故障。
- 虚拟机因 IO 错误“任务 xyz/sdaX 被阻止超过 120 秒”而重新启动
- 备份不起作用,因为 VSS 需要太多时间。
- 无法写入 HDD 磁盘或传输速度极慢且需要大量重试事件
- 磁盘消失了,直到我关闭服务器电源后才恢复
Windows:“已重试磁盘 (2|5|7|8) 的逻辑块地址 X 处的 IO 操作”
Linux:“设备 sdX1 上的缓冲区 I/O 错误,逻辑块 Y,丢失异步页面写入”
我的服务器:
Mainboard: Supermicro XDRi
CPU: 2x E5-2630v3
RAM: 8x32GB DDR4 (8x Samsung M386A4G40DM0)
Disks:
4x WD Red 3TB
2x WD Red 6TB
2x SM863 2TB
1x Intel SSDSC2BX200G4 200GB
1x Samsung 940 Evo - 256GB
OS: Hyper-V 2012 R2
Controller: Onboard Intel C612 | HighPoint Rocket 2720SGL | HighPoint Rocket 640L
Raid: I'm not using any hardware raid - I use MS Storage Spaces, but the described problem occurs even without any software raid.
我尝试过的:
- 更换所有 Sata / SAS 电缆 (2x!)
- 更改 SATA 控制器 (2x!)
- 更换硬盘托架插槽
- 在我的工作站测试了每一个磁盘 - 没有智能/写入/读取错误
- 重新安装主机系统
- 安装较旧/较新的驱动程序
- 更新了 BIOS/固件
- 重置 BIOS 设置/禁用省电选项
- CPU / RAM 测试
如果我将数据写入磁盘(仅限硬盘 -我的 SSD 没有问题s)——Windows 或 Linux——这并不重要。
你知道那会是什么吗?
答案1
看来电源插头电缆有问题,我将电源插头电缆从电源更换到背板,现在一切正常 - 我能够测试 1,5Gb/s 而没有出现任何磁盘 I/O 错误。
仍然无法想象这是怎么发生的。