icmp ping 是监控 EC2 中主机启动/关闭的可靠方法吗？

Question 1

我对亚马逊的实施情况不太了解，所以我的回答只涉及一般行为。

有 RFC 建议限制节点生成的 ICMP 数据包，但这些建议不适用于路由器转发 ICMP 数据包。我不知道路由器对某些转发数据包的限制方式是否与其他数据包不同。

然而，为了实现负载平衡，通过不同的链路向不同的端口号发送数据包是许多硬件都具有的功能，如果使用此功能，则您的 ICMP 数据包完全有可能通过与发送到您的服务端口的数据包不同的物理网络路径进行路由。这可能是观察到差异的原因。

请注意，在正确配置的设置中，您应该期望看到 ICMP 回显请求比您的服务更可靠，而不是更不可靠。这本身就足以避免使用 ICMP 回显请求进行健康检查。

ICMP 回显请求更可靠的原因是它们具有更少的依赖性。ICMP 回显请求由内核网络堆栈回复，因此即使机器状况非常糟糕，您仍然能够响应 ICMP 回显请求。

Answer

我对亚马逊的实施情况不太了解，所以我的回答只涉及一般行为。

有 RFC 建议限制节点生成的 ICMP 数据包，但这些建议不适用于路由器转发 ICMP 数据包。我不知道路由器对某些转发数据包的限制方式是否与其他数据包不同。

然而，为了实现负载平衡，通过不同的链路向不同的端口号发送数据包是许多硬件都具有的功能，如果使用此功能，则您的 ICMP 数据包完全有可能通过与发送到您的服务端口的数据包不同的物理网络路径进行路由。这可能是观察到差异的原因。

请注意，在正确配置的设置中，您应该期望看到 ICMP 回显请求比您的服务更可靠，而不是更不可靠。这本身就足以避免使用 ICMP 回显请求进行健康检查。

ICMP 回显请求更可靠的原因是它们具有更少的依赖性。ICMP 回显请求由内核网络堆栈回复，因此即使机器状况非常糟糕，您仍然能够响应 ICMP 回显请求。

Question 2

通常有两种高级类型的检查用于监控在传统实例或虚拟机上运行的服务：主机级检查和服务级检查。

主机级别检查通常由代理和/或云提供商监控堆栈和监控指标（如 CPU 利用率、CPU 负载、可用内存、可用磁盘空间等）执行。

服务级别检查监控服务本身，通常是通过预定义的健康检查端点（例如）/healthcheck。您可以配置服务检查以对该端点执行 HTTP GET，如果没有提供 200 响应，则发出不良状态警报。

以下是设置健康检查时需要考虑的一些其他基本示例：

在大型分布式环境中，将统计数据收集到时间序列数据库（例如 Graphite 或 InfluxDB）中是很常见的。您的监控服务器会在一定时间内定期检查特定指标是否存在异常。

使用 ICMP 并不是理想的检查方式，因为它是主机级别检查的最基本形式。它不会报告服务本身的状态，应该是您的最后选择之一。

更新我看到这个答案被标记为没有回答原始问题，这让我有点惊讶。我会更直接一点。出于我上面提到的原因，不要使用 ICMP 来监控主机级统计数据。

Answer