我们在 VPC 中设置并运行了 EC2 Windows Server,该服务器通过 Juniper 5GT 连接到我们的网络。一切运行良好,隧道已启动且稳定。
如果我将服务器加入我们的本地域,它似乎可以工作 - 然后我可以使用域凭据登录,并在对文件夹等应用安全性时使用域帐户。
在我注销后,如果等上一个小时左右,盒子就会失去响应。我无法 ping 它,尽管 tracert 除了最后一跳外一直都通了 - 所以隧道没问题。我无法通过 RDP 进入它。如果我重新启动它,它会工作一段时间,然后又会恢复原状。
将其从域中取消加入即可解决问题,并且它保持稳定。事件日志没有显示任何明显的东西,至少对我来说是这样。
有任何想法吗?
答案1
我找到了答案,或者至少有 90% 的把握找到了答案。有问题的服务器在加入域之前已安装了 TFS 2010,并且自计算机加入域以来尚未重新安装/更新。
我开始注意到与 TFS 服务尝试查找我们的域有关的事件日志错误,具体来说TF200035事件(这是详细信息;事件日志显示为 3071)。这些与每小时的 TFS AD 复制有关。由于我们的实例在大约一小时后就死机了,所以这似乎是一个不错的起点。
我禁用了以下两个服务:
- Visual Studio Team Foundation 构建服务主机
- Visual Studio Team Foundation 后台作业代理
...从那时起,实例就一直很稳定。我不知道为什么这会导致实例变得无响应,但下一步可能是重新安装 TFS,并祈祷好运。