我们在 DELL PowerEdge R720 上有一个 Windows Server 2012 R2 文件服务器,最近几天遇到了一个非常奇怪的网络/磁盘性能问题。该机箱在 DELL H730P 控制器下有一个用于操作系统 (disk0) 的 RAID-1 磁盘组,以及一个用于数据的 SAN 存储 (disk1)。
症状 1:
Users complained they can not access file as usual.
Network response is very slow with high latency, even if we ping localhost.
NIC is working on teaming of NIC0 and NIC1.
Having about 300 shared folder clients, and 125 $IPC sessions.
Having about 400 opened files.
症状 2:
Drive C: (disk0 on RAID-1) might have an abnormal disk queue length, greater than 1,
sometimes up to 2 or 3.
High latency accompanies abnormal disk queue length.
But drive c: only hold OS files, pagefile, and programs, it have 80% free sapces,
all of the business data keeps in drive d: .
症状 3:
If we reboot the box, all the issues are gone.
But the problem comes again after running about one or two weeks.
我们需要您的帮助/指导来做一些诊断并找到根本原因。
谢谢。
答案1
在你的位置,我会用 windows 工具启动性能测量表演监视器
您将能够看到哪些进程使用了您的磁盘和/或使用了您的网络资源。
您可以在重启后立即启动测试,也可以在很长一段时间内启动测试。我总是在几周内记录性能指标。
编辑 :
如果可以,您应该在高延迟事件期间启动 perfmon。因为,如果您在此之前启动,并且负责的进程尚未启动,则它不会记录在计数器中。
其他问题:
- 您确定您的 RAID 位于磁盘 0 上吗?
- 您是否尝试过停用组合功能并仅使用一个界面?
- 您是否在写入事件日志的共享文件上激活了审计安全策略?
- 您的共享文件上是否激活了 FSRM 规则?
- 您有软件生成的一些日志吗?
- 您能否通过性能将网络延迟与队列长度关联起来?
- ...
- 祝你好运