我目前的诊断是存在硬件故障,要么与硬件 RAID 控制器的内存有关,要么与硬盘满载运行时所需的额外电量有关。
尝试更换 PSU,没有成功。尝试实时启动另一个操作系统,没有成功。无论操作系统是什么,高磁盘 IO 都会导致硬关机。我已经确定绝对需要一台新服务器。
然而,现在我面临的挑战是备份驱动器的内容,而不会导致高 IO。我已经为 cgroup 配置了 IOps 限制,并尝试了各种方法,看看在不导致关机的情况下,IOps 可以达到多高。每个磁盘的结果似乎略有不同,但平均约 100 iops 似乎可以在崩溃前工作更长时间。然而,考虑到有大约 120GB 的数据,这实际上并不可行。顺便说一下,这些是 SAS 15K 驱动器。
限制 IO 似乎有效,但这是一个繁琐的过程,因为当服务器关闭时我必须重新设置一切。我正在使用 Runtime Live CD(Knoppix fork)将数据从驱动器复制到外部驱动器。
该服务器已有大约 7 年历史,而我恰好没有用于驱动器的额外连接器。
面对这种情况,从驱动器获取数据的可靠方法是什么?
仅供参考,这是帮助我设置限制 IO 的 cgroups 的链接:http://fritshoogland.wordpress.com/2012/12/15/throttling-io-with-linux/
答案1
我自己也见过类似的事情,尽管那已是几年前的事了。
就我的情况而言,是内存出了问题,在复制数据时,出现了某种形式的缓存,我怀疑缓存正在缓慢地使用内存,直到它到达问题内存...砰!电脑崩溃了。内存测试应该很容易识别这一点,或者也许移除一些内存来看看它是否能解决或恶化问题?
如果不是,那么我怀疑它与数据吞吐量有关,并且吞吐量只是延迟了问题而隐藏了实际原因。
也许还值得检查一下 CPU 温度,以防数据复制导致 CPU 工作量过大,导致其达到崩溃点?例如,风扇故障或散热器滑落?减慢数据复制速度只是减轻了负担,足以延迟温度上升。
最后,您没有说您的磁盘是如何配置的?即 RAID 还是 JBOD?您能否将驱动器单独或作为一个组移动到另一台服务器?显然,如果它们是 RAID 驱动器,除非作为最后的手段,否则不要移动它们!当然,除非您知道自己在做什么!
高血压