用于记录故障的适当的网络监控工具

用于记录故障的适当的网络监控工具

我有一个客户,他遇到了我们的软件不时崩溃的问题。不幸的是,如果你在交易过程中拔掉网线,我们的软件每次都会崩溃,而且对此我们无能为力(或至少永远不会)解决。

我相信他们的网络时不时会出现故障,导致软件崩溃,但我不确定如何证明这一点(我的背景是编程和数据库,但网络方面不太了解)。

当我从服务器 ping 任何客户端机器时,它们都会在不到一毫秒的时间内做出响应,但每当它崩溃时,我们都可以在事件日志中找到有关丢失与文件连接的某种错误消息(抱歉,我知道这很模糊,但我自己还没有去过该网站,去过的人也没有记下来)。

我真的不知道如何测试这样的事情,甚至不知道我应该寻找哪种网络工具。如果有人能给我指明正确的方向,我将不胜感激!

答案1

吸烟如果您只关心数据包丢失和延迟,那么它就是一个非常出色的监控工具。

如果这还不够的话,这个问题可能会有一些你感兴趣的答案。


要明确的是:排除这类问题可能非常令人沮丧。监控工具很可能不会给你任何有用的信息。你应该考虑使用的最有可能追踪这个问题的工具是数据包捕获。在客户端和服务器上各进行一次捕获,然后将时间戳与客户应用程序崩溃的时间以及可能与 Smokeping(或您选择的任何其他监控工具)的数据相关联。

答案2

如果有问题的客户端计算机位于一个良好的受控交换机上,网络工程师应该能够告诉您该计算机的网络端口是否出现故障。电缆故障、网卡不稳定、交换机上的端口故障、驱动程序问题,都可能导致网络端口本身出现故障。

检查客户端机器上相关时间范围内的 Windows 事件日志。在事件查看器中创建一个自定义视图,其中包含崩溃前后自定义时间段内的所有事件日志,这将允许您查看 Windows 在该时间段内记录的所有内容。

您可以设置从服务器到客户端的 ping 间隔,间隔时间很短 - 比如说每秒两次 - 然后让它在后台运行,直到出现问题。将输出记录到文件中,这样您就不会丢失结果。

如果您要尝试关联多台机器上的日志,请确保它们的时钟相对同步。

相关内容