我们有一台 2008 年购买的 Windows 2003 IBM 机架服务器。2
x 2 核 Xeon、4 Gb RAM、系统硬件 RAID 1 和数据 RAID 5。
软件比较旧,硬件不算旧。直到最近一切都很顺利。
这台计算机只提供很少的服务。一些文件供 2 个用户使用,Tomcat 服务器每天大约有 1000 次点击,还有一个 24/7 全天候运行的脚本,用于从另一台计算机向 Tomcat 提供信息。
大约 4 周前,我们决定使用这个(对于当前用途来说超大)服务器来共享更多文件。大约 150 个用户共享大约 350 Gb 的 Word/Excel/其他文件。
从那时起,服务器每周都会死机两次。
日志中没有任何可疑事件。
服务器现在每晚都会重新启动,但没有什么好转。
我在几个小时内运行了 Memtest:没有错误
RAID 软件在其日志中没有显示任何内容。
问题发生时:
1. 一些用户抱怨他们无法访问他们的文件
2. 我登录服务器(30 秒或 30 分钟后)
3. 我可以在大约 30 秒内做任何事情
4. 鼠标可以移动,其他一切都无法工作
5. 硬盘灯每 2 秒闪烁一次
然后我使用主开关强制关闭电源,并重新启动。
你知道在哪里/如何挖掘更多信息吗?由于 Windows 日志没有显示任何特殊内容,所以我没有任何线索。
答案1
文件系统审计、网络、磁盘 io CPU 和内存性能监控。由于这种情况发生在您开始共享更多文件时,因此这些指标之一很可能会发现罪魁祸首。