诊断网络故障

诊断网络故障

免责声明:我是开发人员,不是系统管理员,请保持礼貌。

我工作的地方经常出现很多间歇性网络问题。有时 DNS 会失败,但可以通过 IP 访问服务器,有时通过 IP 访问会失败。据我们所知,服务器、防火墙、托管交换机等没有发生任何变化。此外,令人沮丧的是,故障不会一直给所有用户带来问题,但据我们所知,所有用户在某个时候都遇到过问题。

  1. 服务器未报告任何故障。
  2. 物理网络似乎很好(这是一个小型站点)。
  3. 防火墙没有报告任何异常情况。
  4. 管理型交换机的密码仅存储在系统管理员的头脑中(我们知道这个问题!)

我们的内部系统管理员目前无法提供服务,因此只能由开发人员来尝试解决问题。

那么,鉴于我几乎一无所知,我该从哪里开始呢?

更新

我试过 tracrt/ping 组合,看起来是内部问题。外部的东西似乎相当一致,但内部部分却不稳定。

答案1

跟踪路由到您知道会启动的互联网站点。例如 google.com。然后对 3 个目标(您的路由器、路由器默认网关和 google.com)运行持续 ping。

这至少应该告诉您是否在途中丢失了任何数据包,或者您的互联网或内部网络是否存在问题。

如果/当您得到下一个答案时,请回复该帖子。

听起来好像是某个地方有什么东西断开了连接。

不过,最好的建议是找到你的系统管理员,这就是他/她在那里的原因......

答案2

听起来,要么是交换机/服务器上的接口有问题,要么是网络上存在恶意流量源。如果无法捕获跨区流量或查看接口统计信息,那么实际上追踪其中任何一个几乎是不可能的。您最近添加了任何新设备吗?特别是,按照我个人的可疑设备顺序:网络设备、连接到多个网络的服务器、打印机。

但是,如果系统管理员独自休假,离开公司时无法查看网络,情况就非常糟糕了。他/她回来后需要讨论以下事项:

  1. 监控 - 有许多免费/OSS 监控解决方案,从每个端口统计(Cacti)到深入的服务监控(Nagios)。听起来你需要两者。
  2. 文档 - 如果只有一个人有资格管理网络,那么这个人必须 文件,文件,文件!此外,它必须放在易于访问的介质中即使网络断线!这包括安全地存储密码,即使是将硬拷贝存储在保险箱中,这样即使系统管理员被黑巴士撞到,公司也不会受到影响。
  3. 通知 - 一旦您实施了合适的监控解决方案,您就必须决定一个升级计划,以便您不会只向一个人发送通知。

我曾是一家价值数百万美元的公司的唯一网络管理员,任职时间超过 7 年(我现在有手下 =),并且几乎在整个时间里 24/7/365 随叫随到。我可以非常肯定地说,如果你让自己成为唯一可以做某件事的人,那么你可以放心,你将要每当需要做那件事时就会被调用。

您可以 100% 依赖的一件事是,当您是唯一可以修复东西时,任何东西损坏的可能性都是绝对确定的,当您去度假时,这些东西肯定会损坏。

答案3

如果无法访问交换机,您在查找网络问题时的选择会受到一些限制。我会先检查服务器上的接口,查找丢失的数据包或冲突。您也可以使用 Wireshark 或 tcpdump 查看实际流量,并查看 DNS 服务器未通信时发生的情况,但如果您能从网络端而不是服务器端监控,那么所有这些操作都会更高效地完成。如果您真的如果需要,您可以重置交换机上的密码,但请做好管理员回来后处理愤怒的准备……

答案4

隔离问题:
我认为,最好的办法是尝试隔离问题。如果您有多个交换机,问题是否只发生在连接到其中一个交换机的机器上?如果所有交换机都出现问题,并且不仅仅是 DNS 问题,那么我会查看路由器或交换机与路由器之间的连接。这可能是某种广播风暴之类的问题,但我认为这种可能性较小,如果是,您可能不会修复它。正如所提到的,tcpdump/wireshark 和接口错误也可以在此过程中提供帮助。

对所有电源进行循环(有风险
一秒有风险选项是只对所有设备进行电源循环,或者一次只对一个设备进行电源循环,看看是否能解决问题。我认为这是有风险的,因为许多网络设备都有一个运行配置和一个保存的配置。如果管理员上次做某事时忘记将运行配置提交到启动配置,那么重启后你很可能会遇到麻烦。

相关内容