我家里有一台小型 Ubuntu 服务器,有 2 个硬盘。磁盘上有两个软件 raid(raid1),由 mdadm 管理,我认为这无关紧要,但还是要提一下。
两块硬盘都是 Western Digital 的,用了大约 2 年,其中一块开始发出咔嗒声,然后坏了。我想也许 2 年后这是正常的,所以我买了一块新的,并重新同步了 RAID 阵列。大约一个月后,另一块硬盘也坏了。
我没有起疑,因为两个驱动器是同时购买的,所以看到它们彼此靠近也就不足为奇了,所以我又买了一个。
到目前为止,系统中有 2 个旧驱动器出现故障,还有 2 个全新驱动器出现故障。一个月后,其中一个新驱动器坏了。这时事情开始变得可疑。由于这台 PC 是用一些非常旧的零件(比如 AthlonXP)组装起来的,所以我猜想主板的 SATA 控制器可能是罪魁祸首。当然,在这样的旧 PC 中,您无法轻松更换零件,因此我购买了整个系统、新主板、新 CPU、新 RAM。由于还在保修期内,我把刚刚坏掉的驱动器拿回去更换了。
因此,旧硬盘最多有 2 个出现故障,新硬盘最多有 1 个出现故障。1 个月内没有出现问题。此后,/var/log/messages 中再次出现错误,mdadm 报告 raid 阵列故障。我开始抓狂。系统中的所有内容都是新的,最多有第三个全新的硬盘,我购买的所有新硬盘都出现故障,这根本不可能。
让我们看看还有什么共同点……电缆。好吧,可能性不大,让我们更换 SATA 电缆。拿回硬盘,对柜台的那个人笑着说我真的很倒霉。他更换了硬盘。我回家,一个月过去了,其中一个硬盘又坏了。我不是在开玩笑。
两个全新的硬盘出现故障。也许是操作系统的一个错误。让我们看看制造商的测试工具怎么说。下载测试工具,将其刻录到 CD 上,重新启动,让硬盘测试过夜。测试表明驱动器有故障,如果我还能备份所有内容,我应该备份所有内容。我不知道发生了什么,但这看起来不像是软件问题,肯定是某些东西在破坏硬盘。
我现在应该提一下,整个系统都放在一个鞋盒里。由于里面有很多“自己动手做宜家机箱”的东西,我认为把东西扔进盒子里并塞进某个地方应该不会有什么问题。盒子通风良好,但我认为驱动器可能过热了。对此没有其他可能的答案。所以我把硬盘拿回去换了(第三次),还买了硬盘冷却器。
而就在此时,我听到了末日的声音。咔哒咔哒呼呼. 通过 SSH 进入框:
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
dmesg 输出:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
回顾:
- 不存在过热的可能性
- 6 个驱动器发生故障,其中 4 个是全新的。我现在不确定原来的两个驱动器是否有故障,或者是否与新驱动器遭遇了同样的问题。
- 除操作系统(现在是 Ubuntu Karmic,从 Jaunty 开始)外,系统中没有什么共同之处。新 MB、新 CPU、新 RAM、新 SATA 电缆。
- 不,硬盘上的小孔没有被覆盖
我哭了。真的。我现在没脸再去店里了,4个月内4个硬盘坏了不可能。
我一直在思考的几个问题:我在分区和重新同步驱动器时,是否有可能弄乱了某些东西?情况会严重到物理损坏驱动器吗?(因为供应商提供的工具说驱动器已损坏)我使用 fdisk 进行分区,并对 raid1 分区使用相同的块大小(我使用 fdisk -lu 检查确切的块大小)
Linux 内核或 mdadm 或其他什么东西是否与该品牌的硬盘不兼容,从而导致它们崩溃?
可能是鞋盒的问题吗?试试把它放在别的地方?它现在在架子下面,所以湿度也不是问题。普通的电脑机箱能解决我的问题吗(那我要拍自己了)?我明天会拍张照片。
我是不是只是被诅咒了?
非常感谢任何帮助或猜测。
编辑:电源板具有过压保护。
編輯2:我在这 4 个月内搬过家,因此两个地方的“脏”电都是导致问题的可能性非常低。
编辑3:我检查了 BIOS 中的电压(无法借用万用表),它们似乎都是正确的,最大的差异是在 12V,因为它提供的是 11.3。我应该担心这个吗?
编辑4:我将台式电脑的 PSU 放入服务器。BIOS 报告的电压读数更加准确,并且它已成功重建 raid1 阵列,这花了大约 3-4 个小时,所以我现在感觉有点乐观。明天会买一个新的 PSU 来测试。另外,附上有关盒子的图片:(忽略第三个驱动器)
答案1
您的电源是否也太旧了?也许是驱动器功率过低/过大导致了故障。如果您有万用表,我会尝试测量硬盘中的电压,并在一段时间内观察它。另一个罪魁祸首可能是“脏”电,因此可能需要使用 UPS,以便“清洁”进入 PSU 的电力。
答案2
我同意其他人的观点:力量。
然而,事情却发生了变化。
所有组件都需要有一个公共接地 - 底盘是典型的,但对于你的情况,谁知道呢!“漂移接地”会导致这种情况,我当然。
您希望所有组件都连接到一个接地点,并且该接地点连接到您设施的“电网”接地点。这一点很重要。
顺便说一句,可能的您的所有旧硬件实际上仍然正常!我发现,如果电源供应正常,使用不稳定电源的设备有时也能正常使用。
我希望这有帮助。
逆转录
答案3
这是一篇旧帖子,原始问题可能不再与提问者相关。但是,对于未来组装廉价 PC 的人来说,电源并不是磁盘驱动器的所有问题。以我作为 EMC 认证实施工程师的专业意见,将电源归咎为唯一责任方是一种误导性答案,因为计算机位于纸板箱内。
硬盘会振动,虽然没有特定的位置(垂直或水平)可以增加或减少磁盘的使用寿命,但是,硬盘驱动器的主轴会产生振动因素。这里展示的驱动器只是放在纸板箱中。这是预算工程的一个例子,振动的驱动器放在一边,进一步增加了盘片上的共振。虽然这本身并不是答案,但安装不当的硬盘可能会导致磁盘故障,因为振动的盘片会干扰读写头正确接触盘片。
电源,廉价的电源通常对计算机来说都是坏事,但是,这个 PSU 不太可能损坏硬盘,而不会损坏主板上其他更敏感的组件。该系统装在纸板箱中,因此工程和电源可能会导致更严重的故障,但不一定是磁盘故障。这是可能的,但在本例中尚未得到证实。
热量:热量会损坏磁盘,但是,如果磁盘在发生故障时摸起来不烫手,热量就不是罪魁祸首。纸板箱对于 PC 或服务器来说不是一个很好的工程设计。您最好将零件用螺栓固定在计算机桌或工作台上,至少它们可以接地。
软 RAID 和廉价驱动器。从照片中的纸板盒和旧部件来看,您似乎正在使用标准台式机驱动器和软 RAID。台式机驱动器可以放置在 RAID 控制器上,但是,随着磁盘上的 I/O 增加,磁盘故障的可能性也会增加。在这种情况下,映像中的磁盘不在硬件 RAID 控制器上,而是与主板上的软件组件组合在一起。这对硬盘来说并不理想。这会增加 CPU 的工作负载,而且众所周知,软 RAID 会出现错误并过早损坏硬盘。软 RAID 很可能首先损坏了这些驱动器。
预防未来的构建:如果你正在阅读这篇文章,并且通过谷歌问题或其他方式看到这个旧的用户场景:
-确保磁盘正确安装在稳定的硬盘机箱中。使用至少 4 个硬盘螺钉将磁盘固定,或使用与机箱配套的特殊磁盘托架。
-确保您的机箱内有足够的空气流通,RAID 中的硬盘往往在磁盘上有更多的 I/O,并且会比单独安装物理卷时热得多。
-不要使用廉价电源。肮脏的电源会损坏昂贵的计算机部件。还要确保电源提供足够的功率来处理所需的工作负载。
-使用 RAID 控制卡!切勿在主板上使用软 RAID。软 RAID 会降低磁盘性能,并且比 RAID 控制卡更易增加磁盘故障几率。
-RAID 通常会增加磁盘故障的几率,因为所有卷的 I/O 都会增加。加入的磁盘池越大,驱动器发生故障的几率就越高。如果对驱动器进行 RAID,请始终使用奇偶校验驱动器和热备用驱动器。如果对 2-3 个磁盘进行 RAID 0,则可能会丢失数据。如果您有 3 个磁盘,请使用 RAID 5!如果您的驱动器在保修范围内,则 RAID 5(4+1)上的 6 个磁盘和热备用驱动器是理想的选择。如果您买不起更多磁盘或磁盘超出保修期,请不要使用 RAID。
-台式机硬盘不是企业级硬盘。台式机硬盘与企业级硬盘类似,但并非为处理 RAID 控制器带来的巨大工作负载而设计。如果您从 newegg 购买台式机硬盘并将其安装在主板上进行 RAID,则在第一年您很可能会看到至少一次硬盘故障。在 RAID 上运行机器的时间越长,写入磁盘的 I/O 就越多,卷发生故障的可能性就越高。将廉价硬盘与廉价主板软 RAID 结合起来,您将会受到伤害。
这位用户很可能在他的鞋盒服务器中遇到了所有这些因素。廉价电源、不良空气流通、未正确安装在机箱中的旧廉价驱动器以及主板软 RAID...所有这些都增加了磁盘故障的可能性。
答案4
这听起来确实像是电源问题。
如果确实遇到电涌,许多廉价的电源板只能工作一次 - 并且通常没有迹象表明它们不再提供保护。
好的 UPS 可能会有所帮助 - 一些高端 UPS 实际上从电池中产生电力,并不断充电,提供完全隔离的电源。唯一的缺点是它们可能会很吵。