在我们的一个办公室中,我们有一台 Dell PowerVault 745N NAS 设备,它充当主文件服务器。它运行 32 位 Windows 2003 Storage Server SP2,具有 3GB RAM。该服务器拥有大约 60 个用户 HOME 文件夹,这些文件夹通过 AD 映射。
办公室客户端是 XP SP3、Vista 和 Windows 7 的混合版本。在传输大文件时,服务器偶尔会完全挂起。当挂起发生时,控制台会变得无响应,只有鼠标处于活动状态并且壁纸为空白。有时停止复制会释放服务器,有时则不会。
挂起可能持续约 20 分钟。在此期间,其他服务器也会变得无响应,控制台上显示空白壁纸。如果您设法进入另一台服务器,任务栏和运行命令将无响应。
有时,客户端计算机也会发生这种情况,导致资源管理器崩溃。我猜这是由于 HOME 文件夹映射造成的。
最终 NAS 服务器将释放空间并且一切都将恢复正常。
服务器配置如下:
PERC 4/DC 数据 2 - 12 SCSI 硬盘 - RAID5
SHADOWCOPY 2 SCSI 硬盘 - RAID1
CERC SATA 数据 11 4 SATA 硬盘 - RAID5
操作系统 4 SATA 硬盘 - RAID5
所有驱动程序和固件都是最新的。我已经和戴尔一起进行了所有诊断,硬件都正常,包括对阵列进行完整的硬盘测试。服务器安装了 NOD32 作为 AV,但卸载时会出现挂起现象。
发生这种情况时,事件日志中没有错误,我们的任何 ProCurve 交换机上都没有记录任何错误。据我所知,域上的 DNS 运行正常,AD 运行正常。
也没有设置 DFS 或 NFS 共享。所有共享都是标准 Windows。
我已取消选中 NIC 上的电源管理下的允许计算机关闭此设备以节省电源框。
“将链路速度和双工设置为自动协商 1000”将接收描述符缓冲区从 256 增加到 352(保留更多 CPU 资源用于处理数据)
我使用网络监视器运行网络跟踪,发现以下情况:417 8.078125 {SMB:192,NbtSS:25,TCP:24,IPv4:23} 192.168.2.244 192.168.5.35 SMB SMB:R; Nt Create Andx - NT 状态:系统 - 错误,代码 = (52) STATUS_OBJECT_NAME_NOT_FOUND
我尝试了不同的布线、网卡和交换机端口,结果都一样。从域上的其他服务器传输文件没问题。我唯一没有做的就是在驱动器上运行 CHKDSK 来查找任何文件系统错误。
在 Vista 客户端上,我也运行了 netsh interface tcp set global autotuning=disabled,但没有结果。
是不是因为服务器的驱动器有故障或者 I/O 太多而无法处理?
有什么想法为什么挂起会导致 LAN 上的其他服务器出现问题?
非常感谢。
答案1
在复制这些大文件时,您是否观察过服务器的内存使用情况?就我个人而言,我发现移动 10GB 的文件是毁掉我的 Windows 2003 服务器的好方法……请查看此主题:Windows Server 2008 x64、大文件传输和内存使用情况
讨论了一些用于处理大文件的替代文件复制工具。我使用 RichCopy 感觉不错。
答案2
这听起来像是复制到服务器的速度超过了磁盘子系统的写入能力(或部分能力)。PERC 控制器上的 12xSCSI Raid 5 组应该能够支持 >200Megabytes/sec(希望更高)的大型连续写入,但 CERC 上的 SATA 组可能难以超过 70Meg/sec,甚至可能比这慢很多。针对 SATA Data Raid 包的大型复制很容易通过 GigE 连接以更快的速度传入,如果确实发生这种情况,那么 Windows 2003 将消耗服务器上的本地内存,因为它需要缓冲复制。缓冲区将以服务器上的所有其他内容为代价增长,甚至会导致核心操作系统服务页面输出,例如,这会导致您报告的完全锁定行为。如果是这种情况,那么将大型复制活动的目标位置移动到 PERC RAID 组应该会有所帮助。
如果您处于健康的交换网络中,这应该是一个非常局部的问题(即只影响此服务器),但如果其他服务器依赖于该服务器托管的共享或服务,那么它们也可能会出现一些问题。也就是说,您描述的症状暗示了比这更严重的问题。如果您在其中一次事件期间实际登录其中一台服务器,您是否会看到同样的问题?
答案3
自从将交换机端口与 NIC 速度匹配后,我的服务器效果更好了。我还关闭了 NOD32 上的 AMON 模块,因为我注意到在传输过程中,AV 有时似乎会在一段时间内挂起文件。我在服务器上运行 2.7,因为我在大多数服务器上使用 V4 时遇到了很大的问题。
服务器仍未恢复 100%,但我似乎不再遇到长时间挂起的情况。此外,服务器内存似乎不是导致问题的原因。
答案4
当问题发生时,您是否会遇到问题,因为登录第二台服务器将尝试从 NAS 服务器加载配置文件?
大型文件有多大?每次都会锁定服务器吗?您能否在两个工作站之间测试大型文件复制,并查看其是否正常工作,AV 是否在两个工作站(或第二台服务器)上运行。
我知道上面有人提到过查看 Windows 内存使用情况......
我会查看网卡驱动程序,您已经说过驱动程序是最新的,在这种情况下,我会寻找较旧的驱动程序,或关闭 NIC 的 tcp 卸载选项。我不得不与 MS 合作解决 Windows 集群网络问题,在进行故障排除时最好关闭 nic 卸载。
HTH,马克