如何查找随机网络超时的原因

Question

我同意 Iain 的观点，需要进行一些监控才能进行调试。由于症状发生在同一台服务器上的两个 IP 地址之间，因此根本原因可能与网络有关，也可能与网络无关。网络上可能发生一些异常情况，导致 NIC 出现故障。根本原因也可能在服务器中。

要查看网络是否是影响因素，请考虑在服务器上运行数据包嗅探器。由于问题是间歇性的，请使用环形缓冲区选项进行持续监控。有两种方法可以做到这一点：

a. 在服务器控制台上保持登录状态的同时运行 Wireshark。在 Capture 中找到环形缓冲区选项 ==> 选项

b. 通过 SSH 连接到服务器并使用命令行工具（例如“screen”或“tmux”）创建注销后仍持续存在的会话。然后在持续会话中，使用带有 -b 环形缓冲区标志的 Tshark。

此时，我建议不要指定捕获过滤器。相反，捕获所有数据包，因为根本原因可能是任何事情。嗅探器将创建一组包含捕获数据包的文件。诀窍是在这些捕获文件中找到感兴趣的数据包。为了协助搜索，请确保服务器时钟准确，然后尽可能精确地记录观察到症状的时间。

要分析捕获文件，Wireshark 的图形界面可能是最简单的。使用带有 -r 标志的 Tshark 并将结果通过管道传输到 grep 也可以。使用时间戳来隔离感兴趣时间附近的数据包。

Answer 1

我同意 Iain 的观点，需要进行一些监控才能进行调试。由于症状发生在同一台服务器上的两个 IP 地址之间，因此根本原因可能与网络有关，也可能与网络无关。网络上可能发生一些异常情况，导致 NIC 出现故障。根本原因也可能在服务器中。

要查看网络是否是影响因素，请考虑在服务器上运行数据包嗅探器。由于问题是间歇性的，请使用环形缓冲区选项进行持续监控。有两种方法可以做到这一点：

a. 在服务器控制台上保持登录状态的同时运行 Wireshark。在 Capture 中找到环形缓冲区选项 ==> 选项

b. 通过 SSH 连接到服务器并使用命令行工具（例如“screen”或“tmux”）创建注销后仍持续存在的会话。然后在持续会话中，使用带有 -b 环形缓冲区标志的 Tshark。

此时，我建议不要指定捕获过滤器。相反，捕获所有数据包，因为根本原因可能是任何事情。嗅探器将创建一组包含捕获数据包的文件。诀窍是在这些捕获文件中找到感兴趣的数据包。为了协助搜索，请确保服务器时钟准确，然后尽可能精确地记录观察到症状的时间。

要分析捕获文件，Wireshark 的图形界面可能是最简单的。使用带有 -r 标志的 Tshark 并将结果通过管道传输到 grep 也可以。使用时间戳来隔离感兴趣时间附近的数据包。

相关内容