Exchange 2003 上反复出现的错误导致不可用和重新启动?

Exchange 2003 上反复出现的错误导致不可用和重新启动?

由于硬盘故障,我们重建了 Exchange 2003 服务器,之后 Exchange 在一段未知时间后变得不可用。绝大多数用户现在使用 Outlook 2007(少数用户仍在使用 2003)。

我们提高了日志记录级别,现在我们注意到了这些警告;我一直在跟踪它们,看起来它们每 15 分钟左右发生一次(不确定时间框架是否与此有关)

这些警告有时会导致错误,昨天我们重启了服务器两次;大约上午 8:30 和下午 2:30(大约 6 个小时 - 再次,不确定时间是否与此有关)

进程 INETINFO.EXE (PID=1300)。由于错误 0x80040951,DSAccess 需要关闭与域控制器 AD-server.domain.com 的连接。

进程 STORE.EXE (PID=2936)。由于错误 0x80040952,DSAccess 需要关闭与域控制器 AD-server.domain.com 的连接。

进程 MAD.EXE (PID=2160)。由于错误 0x80040952,DSAccess 需要关闭与域控制器 AD-server.domain.com 的连接。

3 个警告大约每 15 分钟重复出现一次。

重新启动 Exchange 之前出现的错误如下

目录 AD-server.domain.com 上的可分辨名称 '' 的 LDAP 绑定失败。目录返回错误:[0x51] 服务器关闭。DC=domain,DC=com

我们不确定警告是否与错误有关(以及最终导致的重启)。根据上面的时间安排,我们认为它会在晚上 8:30 和凌晨 2:30 左右再次发生,但什么也没有发生。自昨天下午 2:30 左右重启以来没有出现任何错误。

我应该注意到 ExchangeDMZ 1和 AD 都已存在,DMZ 3但是防火墙(Sonicwall)在 2 个 DMZ 之间完全打开。

Exchange 曾经位于自己的服务器上,但是根据一些技术人员的建议,我们已将其移至 VM。2008 服务器是主机,VMWare 服务器 2 用于 VM,Windows 2003 运行 2003 Exchange。

我们真的不知道发生了什么。我们重启了防火墙,关闭了 AV/内容过滤,重启了 AD 和 Exchange。

我们正在考虑将 Exchange 移到与 AD 相同的 DMZ 中。我们交谈过的每个人都建议这样做,但我们现在还不能这样做。最好的部分是,在我们不得不重建 Exchange 之前,我们运行得非常好,相同的防火墙、相同的 DMZ 设置、相同的操作系统版本(VM 除外)已经 3 年多了。只有在我们失去 Exchange 并不得不重建它之后,我们才遇到这些问题。

有任何想法吗?

--- 注释添加于 2011 年 11 月 23 日上午 11:11(美国东部时间)---@ Even Anderson

我不完全确定如何完成你要求我做的事情;我们通常不会在这里嗅探流量......

然后我记得我们的 Sonicwall NSA 内置了数据包捕获功能。

因此,我输入了 Exchange 服务器和 AD 服务器,让它将捕获的内容发送到我 PC 上的 FTP 服务器,现在我可以查看 Exchange 和 AD 之间的流量。它向我发送 .cap 文件,我使用 Wireshark 查看这些文件。

这个“问题”发生在今天早上 1 点到 3 点之间,然后今天早上 9 点左右又出现了。为了安全起见,我早上 6 点左右进来时重启了系统,然后在 9:30 左右交换系统没有响应时再次重启了系统。

过滤 LDAP 协议后,我看到以下条目:

SASL GSS-API Inegrity - 这些看起来像实际的查找,并且每个 searchRequest 都有一个 searchResEntry

bindRequest 和 bindResponse - 它们看起来是 1 比 1 - 所以看起来不错。

我看到一些从 Exchange 到 AD 的解除绑定请求似乎没有响应 - 但我不确定它是否应该有响应。

我没有看到任何具有实际 SYNC 的东西。

仍在寻找 - 运行捕获似乎不会影响任何地方的性能,所以我希望继续运行它直到发生错误并且交换停止响应。

答案1

错误 0x80040951 是“LDAP_SERVER_DOWN”错误,而 0x80040952 是“LDAP_LOCAL_ERROR”。这两个错误都让我认为 Exchange Server 计算机无法通过 LDAP 与 DC 进行通信。

我会先嗅探 Exchange 和 DC 之间的流量。如果可以,请使用 SPAN 端口或其他方法在 DC 和 Exchange 之间“连接”专用嗅探器计算机,这样就可以长期进行嗅探而不会对任何一台服务器造成性能问题。您可以使用捕获过滤器将流量隔离到 Exchange Server 和 DC 之间的对话。如果可以,请使用两台计算机进行嗅探,并在每台服务器和隔离它们的防火墙设备之间“连接”一台。

在没有看到实际网络流量发生的情况的情况下,我很难提出任何进一步的建议。如果您最终捕获了一些“正在发生的”故障,您可以在此处发布它们,我们会查看。根据我目前看到的情况,我预计您会发现 Exchange Server 计算机反复对 DC 上的 LDAP 端口进行 SYN 操作,但没有得到响应。如果您足够幸运,能够从防火墙设备的“两侧”进行捕获,我敢打赌您会看到未穿越防火墙的流量。您的问题肯定有这种感觉……

相关内容