解决网络中断问题

解决网络中断问题

我的公司几乎完全是 Windows 商店:Microsoft 防火墙、所有 Windows 服务器等等。硬件大多是思科或类似思科的。大约三周以来,我们经历了“随机”网络中断。它们持续时间不长,但确实会发生,并中断工作流程*。它们不会同时发生。我们不知道是什么发生了变化导致它们开始发生。我们询问了 Optimum Lightpath,他们的系统运行良好,所以问题似乎出在内部。

您将如何排除故障/设置日志来解析/正确设置 wireshark 的过滤器(我知道,我知道 - RTFM......)/牺牲一只山羊?


  • 工作流中断:任何需要访问服务器(例如网页或数据库访问)的工作都会中断。

在此复制 dashmir 的消息,因为它包含大部分相关信息:

希望我今天能解决由于交换机故障导致的问题,但我们是一家多专业医师诊所。我们有 3 栋使用暗光纤连接的大楼和 22 个远程站点。一半使用电子线路连接,另一半使用站点到站点 VPN。

中断时间很短,大约 10-15 秒,但足以扰乱工作流程并造成混乱。使用 EMR 的医生大多尖叫。然后一切恢复正常。

所有交换机、服务器、应用程序等之间的连接丢失。

我们在 CCR 集群中安装了 Exchange。防火墙同样具有容错功能并可进行负载平衡,这些是我们的 Exchange 和防火墙上的一些错误。

事件 ID 1135 — 群集服务启动 更新时间:2009 年 11 月 25 日 适用于:Windows Server 2008 R2

群集服务是控制故障转移群集操作的所有方面并管理群集配置数据库的基本软件组件。如果群集服务无法在故障转移群集节点上启动,则该节点无法作为群集的一部分运行。
事件详细信息
产品:Windows 操作系统
ID:1135
来源:Microsoft-Windows-FailoverClustering
版本:6.1
符号名称:EVENT_NODE_DOWN
消息:群集节点“%1”已从活动故障转移群集成员身份中删除。此节点上的群集服务可能已停止。这也可能是由于节点与故障转移群集中的其他活动节点失去通信。运行验证配置向导以检查您的网络配置。如果情况仍然存在,请检查与此节点上的网络适配器相关的硬件或软件错误。还要检查节点连接到的任何其他网络组件(如集线器、交换机或网桥)中是否存在故障。解决检查网络硬件和配置如果您当前未打​​开事件查看器,请参阅“打开事件查看器并查看与故障转移群集相关的事件”。查看事件消息后,选择适合您情况的操作: • 运行验证配置向导,仅选择网络和库存测试。有关详细信息,请参阅“使用验证配置向导查看网络配置”。 * 检查系统事件日志中是否存在与此节点上的网络适配器相关的硬件或软件错误。 * 检查连接节点的网络的网络适配器、电缆和网络配置。 * 检查连接节点的网络中的集线器、交换机或网桥。 要执行以下步骤,您必须是每个群集服务器上本地管理员组的成员,并且您使用的帐户必须是域帐户,或者您必须被委派了同等权限。 使用验证配置向导查看网络配置 要使用验证配置向导查看网络配置:
1. 要打开故障转移群集管理单元,请单击“开始”,单击“管理工具”,然后单击“故障转移群集管理”。如果出现“用户帐户控制”对话框,请确认其显示的操作是您想要的,然后单击“继续”。
2. 在故障转移群集管理插件中,在控制台树中,确保已选择故障转移群集管理。然后在管理下,单击验证配置。
3. 按照向导中的说明指定要测试的群集。
​​ 4. 在测试选项页面上,选择仅运行我选择的测试。
5. 在测试选择页面上,清除除网络测试之外的所有复选框。
6. 按照向导中的说明运行测试。
7. 在“摘要”页面上,单击“查看报告”。 打开事件查看器并查看与故障转移群集相关的事件 要打开事件查看器并查看与故障转移群集相关的事件:
1. 如果服务器管理器尚未打开,请单击“开始”,单击“管理工具”,然后单击“服务器管理器”。如果出现“用户帐户控制”对话框,请确认其显示的操作是您想要的,然后单击“继续”。
2. 在控制台树中,展开“诊断”,展开“事件查看器”,展开“Windows 日志”,然后单击“系统”。
3. 要筛选事件以便仅显示来源为“故障转移群集”的事件,请在“操作”窗格中单击“筛选当前日志”。在“筛选”选项卡上的“事件源”框中,选择“故障转移群集”。根据需要选择其他选项,然后单击“确定”。
4. 要按日期和时间对显示的事件进行排序,请在中心窗格中单击“日期和时间”列标题。验证 要执行此过程,您必须是每个群集服务器上本地管理员组的成员,并且您使用的帐户必须是域帐户,或者您必须被委派了同等的权限。 验证群集服务是否在故障转移群集中的所有节点上启动 要验证群集服务是否在故障转移群集中的所有节点上启动:
1. 要打开故障转移群集管理单元,请单击“开始”,单击“管理工具”,然后单击“故障转移群集管理”。 如果出现“用户帐户控制”对话框,请确认其显示的操作是您想要的操作,然后单击“继续”。
2. 在“故障转移群集管理”管理单元中,如果未显示要管理的群集,请在控制台树中右键单击“故障转移群集管理”,单击“管理群集”,然后选择或指定您想要的群集。
3. 如果控制台树已折叠,请展开要管理的群集下的树,然后单击“节点”。
4. 查看每个节点的状态。 如果节点处于“启动”状态,则群集服务已在该节点上启动。检查群集服务是否已启动的另一种方法是在群集中的节点上运行命令。 使用命令检查群集服务是否在节点上启动 要使用命令检查群集服务是否在节点上启动:
1. 在要检查的节点上,单击“开始”,指向“所有程序”,单击“附件”,右键单击“命令提示符”,然后单击“以管理员身份运行”。
2. 键入:CLUSTER NODE /STATUS 如果节点状态为“启动”,则表示群集服务已在该节点上启动。 相关管理信息

这些是我在我们的防火墙上看到的一些错误。

事件类型:警告 事件来源:WLBS 事件类别:无 事件 ID:18 日期:2010 年 2 月 9 日 时间:下午 6:09:47 用户:N/A 计算机:HAWKEYE 描述:NLB 群集 172.16.2.35:检测到重复的群集子网。网络可能被无意分割。

事件查看器中出现以下 Windows NT 负载平衡服务 (WLBS) 事件 18: 检测到重复的群集子网。网络可能被无意地分区。WLBS 群集似乎正常运行。 回到顶端 原因 此事件是在重新合并已拆分为多个群集的群集时生成的。此事件可能由以下原因引起: • 拉动服务器上的网络分接头,这将导致服务器与自身聚合并形成两个群集。 • 如果群集部署在两个交换机之间,则切断两个交换机之间的中继。 • 交换机发生故障或网络拥塞导致交换机超载。 回到顶端 解决方案 在群集分区期间,群集成员聚合为两个或更多个单独的群集。此事件是一条信息性消息,报告网络已分区,WLBS 主机现在已正确聚合在一个群集中。此事件是良性的,但如果重复记录,则可能存在底层网络问题或网络基础设施无法满足流量需求。

答案1

好的,经过一周的剖析我的网络后我得出了一个结论。

这项工作很繁琐,但必须完成。我最终去了每个站点,拔掉了所有插头,然后一次重新连接了所有开关。

我发现建筑物和 2 个具有相同 IP 地址的交换机之间有另一个环路。现在一切正常。

谢谢

答案2

您需要缩小中断的确切性质。

  • 这是协议级中断吗?(例如,WINS 或 CIFS 是否停止响应,从而终止您的会话?)
  • 它是局限于一台或几台主机的网络级中断吗?
  • 在中断期间,可以:
    • 交换机之间可以互相通讯吗?
    • 交换机与防火墙通讯吗?
    • 交换机与主机通讯吗?
    • 主持人互相交谈吗?
  • 您的思科日志中是否有任何相关事件?

相关内容