解决“慢速”网络问题

Question 1

tcpdump 和 wireshark 是你的朋友。

我发现，观察“慢速”网络与“良好”网络上的数据包通常可以查明问题所在。

“慢”有很多种类型。

您可以使用 SmokePing 等工具跟踪本地和互联网网站的延迟。（可以配置 SmokePing 来跟踪 ICMP 延迟以及 TCP 服务的服务延迟）

您的交换机应该跟踪广播数据包与单播数据包。绘制该比率的图表。

我还喜欢监控跟踪路由（检查我自己的“重要”站点之间的 ISP 跳转的域名）。

我希望这些评论能有所帮助。

Answer

tcpdump 和 wireshark 是你的朋友。

我发现，观察“慢速”网络与“良好”网络上的数据包通常可以查明问题所在。

“慢”有很多种类型。

您可以使用 SmokePing 等工具跟踪本地和互联网网站的延迟。（可以配置 SmokePing 来跟踪 ICMP 延迟以及 TCP 服务的服务延迟）

您的交换机应该跟踪广播数据包与单播数据包。绘制该比率的图表。

我还喜欢监控跟踪路由（检查我自己的“重要”站点之间的 ISP 跳转的域名）。

我希望这些评论能有所帮助。

Question 2

很难给出具体的答案，因为这项工作 90% 是经验，它告诉你在哪里寻找哪种问题，而另外 90% 是知道在 Google 上查找哪里可以获得从哪里开始的提示。

我通常会尝试纸袋法，比如让客户演示问题（主要是为了排除手指问题以及客户在描述问题时可能遇到的任何问题），然后尝试在另一台计算机上复制该问题。这样做通常可以让你了解应该从哪里查找。

不要忘记重新启动的纠正问题，尤其是对于 Windows 系统，即使在今天也是如此。以前这种情况经常发生，以至于我会问人们“你重新启动过吗？那就试试吧，如果问题仍然存在，请告诉我”——这解决了我被问到的大部分问题。

DNS 解析问题和基本连接（路由器上的 ACL、网络中的气隙、到远程站点的 ping/traceroute/mtr 等）也经常存在容易解决的问题。

对于您直接控制的服务，运行 nagios 或其他程序以确保服务确实在运行，通常可以促使您在客户告知您问题之前解决问题。您可能还希望运行统计信息收集，无论是直接通过 munin 或其他程序，还是通过 SNMP 收集到 Cacti 之类的程序。

我通常会尝试让 Cacti 至少针对我所有的核心交换机和防火墙运行；如果可能，我会针对所有可能的情况运行 Cacti。在这些情况下，我通常会寻找诸如端口错误计数或过量流量之类的东西。某些设备的防火墙图表可以显示 CPU 使用率和并发会话；您将了解防火墙设备在什么阈值下开始出现问题。

您的防火墙可能能够将日志记录到 syslog 设备；如果是这样，请记录所有可以记录的内容，然后查看其中的提示。如果您运行 syslog-ng、rsyslog 或 splunk 之类的程序，可以稍微划分日志，而不是处理单个文件，那么这会更容易。

我还尝试至少在防火墙内部以及尽可能在互联网提供商的上行链路上运行 nfsen。这样您就可以回溯查看会话，看看谁在做什么；有时这可以捕捉到有趣的行为。

Answer