昨天下午,经过一些营销努力,我们全天的流量高于平均水平(但绝不是危险的高)。
这种流量持续一段时间后,我们收到警报,我们的一个 API(每次请求至少被点击一次的微服务)挂了一段时间,然后返回 503 响应代码。
这些响应原来是来自负载均衡器,因为它无法从两个(相同)实例中的任何一个获得响应。
然后,我们研究了实例上的 IIS,发现正在使用的线程数正在快速增加,几乎与传入的请求数一致(大约每秒 10 个),但没有任何请求得到响应。
我们检查了错误日志(希望看到至少一些超时或其他错误),但没有任何内容可以引导我们走向正确的方向,因为根本没有记录相关的错误。
整个事情最奇怪的是,问题似乎是突然出现的(尽管流量增加了),然后经过几个小时后,一切都恢复正常。这可能意味着我们超过了阈值,导致 IIS 线程行为异常,也可能只是巧合。
问题解决后,它没有在同一个实例上再次出现,但一段时间后,该问题又出现在运行不同微服务的另一个实例上。
有人见过这样的图案吗?或者任何类似的东西?