我们在生产现场有一台服务器,它全天候运行,但大部分流量都是在正常工作时间。它的功能是使用基于 Dialogic 的硬件运行电话呼叫中心。
该机器的本地用户注意到,今天早上 8:30 左右,该机器对他们的客户端应用程序没有响应,当我们尝试远程访问它时,我们可以 ping 它,但无法获得对它的 RDP 远程访问权限。
大约 9 点 15 分,我们要求他们拔掉机器的电源线并重新启动,当机器恢复运行后我们就可以继续工作了。
我们发现 RAID 正在进行验证和重建(我推测这是因为意外关机)。
在确保实时服务恢复运行(没有问题)后,我们能够检查服务器,然后检查事件日志。
我能看到的最后一个“正常”事件条目是一些自动化进程在 1:19:26 和 2:49:27 时发生身份验证失败(LsaSrv、SPNEGO(Negotiator)事件 ID 40960),日志中的下一个事件发生在 9:15,当时我们冷重启了机器。该事件日志条目显示:
事件 ID 6008 上次系统关闭(2011 年 10 月 5 日 2:49:40)是意外的。
从该条目开始,随着各种服务的启动,出现了正常的启动条目,并且机器从那时起一直运行良好。
我们运行了蓝屏查看器,确认没有可能导致该问题的蓝屏。遗憾的是,该机器无法访问机架中的 KVM,因此在重新启动之前,没有人能够看到屏幕上的内容(如果有的话)。
问题:1. 有相当多的身份验证失败,我已经要求本地管理员解决这个问题(停止它或修复身份验证) - 是否可能是它以某种方式积累并导致了这个问题?
知道到底发生了什么吗?
我可以采取什么步骤来尝试识别它?可能是硬件问题吗?它相当新,最多用了几年,质量不错的套件,这是我们这两年来遇到的第一个问题。
Windows 如何确定上次意外关机的日期/时间?是否基于最后一个日志条目?或者它是否以某种方式持续监视时间,然后如果在重新启动时设置了该时间,它就会知道何时发生故障?
会不会是机器的高级功能完全冻结了,只有低级 ping 等基本功能仍在运行?如果是这样,这说明了什么?
底线是管理层问我一些简单的问题,发生了什么,我们如何确保它不再发生,我相信你可以想象:)
非常感谢,如果我可以提供更多背景信息或检查服务器上的任何内容,请告诉我。
马特。
答案1
事实上,你有超过 6 个小时的停机时间而没有任何事件发生,这让我认为这是硬件问题。Raid 重建可能是由于拔掉电源插头造成的,也可能是罪魁祸首。
这些事件是应用程序日志、系统日志还是两者?
说实话,有很多可能性,但是,我会先将该服务器连接到 KVM 上,这样本地管理员就可以看到如果再次发生这种情况会发生什么,我说如果是因为它可能只是电源波动之类的简单问题,而且可能永远不会再发生。我假设服务器在 UPS 上,但上次测试是什么时候?