从服务器提取数据而不导致高磁盘 IO

从服务器提取数据而不导致高磁盘 IO

我目前的诊断是存在硬件故障,要么与硬件 RAID 控制器的内存有关,要么与硬盘满载运行时所需的额外电量有关。

尝试更换 PSU,没有成功。尝试实时启动另一个操作系统,没有成功。无论操作系统是什么,高磁盘 IO 都会导致硬关机。我已经确定绝对需要一台新服务器。

然而,现在我面临的挑战是备份驱动器的内容,而不会导致高 IO。我已经为 cgroup 配置了 IOps 限制,并尝试了各种方法,看看在不导致关机的情况下,IOps 可以达到多高。每个磁盘的结果似乎略有不同,但平均约 100 iops 似乎可以在崩溃前工作更长时间。然而,考虑到有大约 120GB 的数据,这实际上并不可行。顺便说一下,这些是 SAS 15K 驱动器。

限制 IO 似乎有效,但这是一个繁琐的过程,因为当服务器关闭时我必须重新设置一切。我正在使用 Runtime Live CD(Knoppix fork)将数据从驱动器复制到外部驱动器。

该服务器已有大约 7 年历史,而我恰好没有用于驱动器的额外连接器。

面对这种情况,从驱动器获取数据的可靠方法是什么?

仅供参考,这是帮助我设置限制 IO 的 cgroups 的链接:http://fritshoogland.wordpress.com/2012/12/15/throttling-io-with-linux/

答案1

我自己也见过类似的事情,尽管那已是几年前的事了。

就我的情况而言,是内存出了问题,在复制数据时,出现了某种形式的缓存,我怀疑缓存正在缓慢地使用内存,直到它到达问题内存...砰!电脑崩溃了。内存测试应该很容易识别这一点,或者也许移除一些内存来看看它是否能解决或恶化问题?

如果不是,那么我怀疑它与数据吞吐量有关,并且吞吐量只是延迟了问题而隐藏了实际原因。

也许还值得检查一下 CPU 温度,以防数据复制导致 CPU 工作量过大,导致其达到崩溃点?例如,风扇故障或散热器滑落?减慢数据复制速度只是减轻了负担,足以延迟温度上升。

最后,您没有说您的磁盘是如何配置的?即 RAID 还是 JBOD?您能否将驱动器单独或作为一个组移动到另一台服务器?显然,如果它们是 RAID 驱动器,除非作为最后的手段,否则不要移动它们!当然,除非您知道自己在做什么!

高血压

相关内容