自从我们从旧的 Linux 服务器迁移到新机器以来,Server 2003 就时不时地“锁定”了我们。似乎 I/O 等待时间每天都会超过正常水平,每个人都会挂起,直到操作系统能够清除它。总体而言,每个人都报告新服务器的响应速度更好,除非它被 I/O 积压堵塞。
但我们不确定如何解决它。我们只有 16 个用户访问此服务器,并且其驱动器(RAID 10,所有 15K 驱动器)仅使用了 8GB 空间。磁盘/网络/内存/CPU 的性能计数器都接近 0... 除了平均磁盘队列长度,它在用户抱怨的同时急剧上升。
在 Linux 中,平均负载永远不会超过 2 或 3,而现在队列长度有时会飙升至 10 或 12,即使我们有更快的驱动器、更多的驱动器、更多的内存、更多的核心、完全相同的应用程序访问服务器等。
第一个问题- 对于我们可以做些什么来追踪和解决这个问题,有什么建议吗?
第二个问题- 有没有办法在内存中创建一个逻辑磁盘驱动器(然后只需使用物理硬盘驱动器进行 DFS 复制,甚至编写脚本从我们的应用程序复制它)?整个数据驱动器只有 8GB(服务器支持 48GB 内存),但我不确定如何处理这个问题。
答案1
听起来像是驱动程序问题或硬件故障。我会先更新所有存储和芯片组相关的驱动程序和硬件固件。
您可能还想联系制造商的支持热线,询问他们是否遇到过这种情况。我知道疯狂的听起来,他们有一半的时间可以快速解决问题(或至少可以识别问题)。
如果您的存储阵列有管理程序,请检查其中是否有错误或驱动器健康信息。检查重新映射的扇区或其他表明驱动器有问题的指标。
答案2
Chris S 已经为您提供了很好的建议,告诉您从哪里开始查找。关于您的第二个问题,我不建议将 RAMDrives(即使是 DFS-Replicated 的)用于您关心的生产数据。
如果您的 DFS 复制是同步的,那么当对您正在复制的物理驱动器的写入停滞时,您的 RAM 驱动器可能会被锁定;如果您的复制方案不是同步的,您将断电(并且您的 UPS 电池将神秘地没电)当物理副本处于不一致(或过时)状态时:通过墨菲定律立即丢失数据。