healthcheck

如何使用 Web 负载均衡器实现主动健康检查

我需要一个具有主动健康检查功能的 Web 负载均衡器。该前端机器应处理 https 证书、少量缓存，最重要的是，只有当后端服务器健康时才代理它们。我尝试过 nginx，但不幸的是，我发现 nginx 开源仅支持被动健康检查，因此我几乎没有其他选择。尝试使用其中一个分支进行 nginx 主动健康检查，但不受支持并且可能难以安装。开发一个自定义 bash 脚本，设置在 cron 计划中，以检查更改 nginx 配置的服务器的运行状况并重新加载实例。安装支持主动健康检查的 HAProxy 并从 nginx 级联配置它。因此 nginx 将处理证书和缓存...

Admin 2024-6-2

healthcheck

就绪探测警告：探测终止重定向，响应正文：

使用 Healthcheck 进行 HTTP 健康检查。如你所见，它被重定向到外部。 root@wordpress-848c85d8d6-8cb15:/# curl HTTP/1.1 301 Moved Permanently http://10.42.3.26 -I Server: nginx Date: Wed, 28 Feb 2024 14:24:19 GMT Content-Type: text/html; charset=UTF-8 Connection: keep-alive X-Powered-By: PHP/8.2.16 X-Redirect...

Admin 2024-6-2

healthcheck

在 Nginx 反向代理中配置 `max_fails` 的最安全方法

我们使用 nginx 作为反向代理，在 2 个应用服务器之间进行负载平衡。这些应用服务器在块中定义upstream如下： upstream app_backends { server 1.1.1.1:8080 max_fails=1 fail_timeout=120s; server 1.1.1.2:8080 max_fails=1 fail_timeout=120s; } 我们曾发生过一次严重的中断，当时一个客户端发送了一个带有大型 cookie 标头的请求，uwsgi应用程序因此而阻塞并提前关闭了连接。这...

Admin 2024-6-2

healthcheck

GKE 集群中托管的 ClamAV 的健康检查未解决

无法解决 GKE 集群中托管的端口 3310、7357 上的 clamAV:1.2 部署的健康检查相关问题。面对部分后端服务处于UNHEALTHY状态，在ingress后添加对服务定义的路由路径。我已经通过以下方式在 GKE 集群中部署了 clamAV:1.2 docker 镜像部署文件。 apiVersion: apps/v1 kind: Deployment metadata: name: clam-av spec: replicas: 1 selector: matchLabels: run: clam-av ...

Admin 2024-6-2

healthcheck

ALB：负载平衡健康检查在失败时是否应该重试？

我们有一些基于 AWS ECS 的 Fargate 托管任务/服务，它们在许多 ALB 后面运行。我们似乎经常在健康检查中收到来自我们自己的监控的无意义警报。这种情况每二十或三十分钟就会发生一次，即使所有系统都在运行，没有用户抱怨问题。健康检查非常轻松。内部服务只执行简单的 DB ping。外部服务只执行执行简单 DB ping 的 API ping。鉴于瞬态基础设施问题是现实生活中的现实，而且每当 AWS 遇到部分不稳定时，这种频繁的请求就可能遇到这些问题，我们是否应该在允许这些 API 处理程序失败之前重试几次，并确保健康检查超时也允许最大期限？我们是...

Admin 2024-6-2

healthcheck

Gravitee 3.20 健康检查地点

也许有人在 gravitee helm 部署的健康检查中遇到了类似的问题 - 找不到任何健康检查端点。我询问了 chatgpt 并找到了相关文档，但两个端点都不起作用 - 我得到 404 未找到： /_node/healthcheck对于每个 - apim、网关、门户、控制台 /management/health- 对于每项服务，我都会得到 404 在服务端口和公共端口上都是如此。谢谢！ ...

Admin 2024-6-2

healthcheck

无法设置 GCP 的外部负载均衡器以便与 Terraform 正确配合使用

使用 Terraform，我想要构建一个由外部负载均衡器 (LB) 和带有 3 个虚拟机的 MIG 组成的基础设施。MIG 中的每个虚拟机都应运行一个侦听的服务器80。此外，我想为 MIG 设置运行状况检查。此外，我想在子网中拥有一个额外的虚拟机，以便我可以 ssh 到它并检查是否可以建立与 MIG 内虚拟机的连接。为了实现目标，我使用了以下 Terraform 模块："GoogleCloudPlatform/lb-http/google"和"terraform-google-modules/vm/google//modules/mig”。不幸的是，运行命...

Admin 2024-6-2

healthcheck

实例刷新：“数据不足，无法使用 Amazon EC2 评估其运行状况”

由于实例“缺乏足够的数据来评估其在 Amazon EC2 中的运行状况”，因此我的自动扩展组的实例刷新需要很长时间。但是，这些实例已经通过了 5 分钟以上的 EC2 健康检查。没有其他类型的健康检查、手动或负载均衡器。实例刷新的条件是什么实际上等待? 有没有什么办法可以更快地满足这个条件，以便实例刷新不需要那么长时间？ ...

Admin 2024-6-2

healthcheck

如何确保 AWS 不会在自动扩展启动之前终止任务？

我正在开发 AWS Fargate 服务，该服务配置了健康检查并设置了自动扩展策略。该应用程序需要大约 30 - 45 秒才能启动。应用程序确实会不时收到流量高峰。当 CPU 使用率在过去 3 分钟内超过 60% 时，自动扩展策略将启动。1 分钟分辨率是 AWS 为内置指标提供的最细粒度分辨率。如何配置健康检查和自动扩展策略，以便自动扩展有机会在健康检查重新启动服务之前扩展服务？自动缩放至少需要 3 个数据点，如果以 1 分钟为单位，则需要 3 分钟。自动缩放启动的其他任务需要启动，并且它们还需要开始接收流量，然后才能卸载现有任务。但是，我认为任务必...

Admin 2024-6-2

healthcheck

通过编程（SH 脚本）检查 HA 代理将流量路由到哪个服务器

我有 2 台 HA 代理服务器，并配置了 Keepalived，还有 2 台后端服务器，流量由 HA 代理路由到这些服务器，我正在编写一个 shell 脚本，该脚本将根据当前使用 osync 设置为活动的服务器在后端服务器之间同步目录（我不想要有关 HA 代理服务器的活动状态，而是后端服务器）（HA 配置为主动-被动，当前服务器发生故障时切换到可用服务器）。问题是我找不到任何资源或方法可以通过编程告诉我哪个服务器当前正在主动接受流量。 ...

Admin 2024-6-2

healthcheck

如何从 NFS 服务器对 NFS 客户端连接执行健康检查？

我有三台 Debian 11 服务器，我们称它们nfs-server为 NFS 服务器，nfs1哪些nfs2是 NFS 客户端。我想从 NFS 服务器执行某种健康检查，以确保客户端的连接性并检测客户端是否连接unmounted并发出警报（警报部分不是这篇文章的主题）。我的问题是：如何执行健康检查并确保来自 NFS 服务器的客户端连接？有没有什么实用程序可以做到这一点？如果是，它可以与 Prometheus 或 Alert-manager 集成吗？我应该使用cronbash 脚本吗？如果是，您能建议一个脚本吗？更新：我应该提到我正在使用不使...

Admin 2024-6-2

healthcheck

Apache httpd：mod_proxy_hcheck 基于 URL 的 HTTP 基本身份验证

我正在尝试使用 mode_proxy_hcheck 对需要 HTTP 基本身份验证的应用程序进行健康检查和故障转移。 <proxy balancer://serverpool> BalancerMember http://username:password@hostname1 hcmethod=GET hcexpr=expression hcuri=/rest_or_url hcinterval=1 BalancerMember http://username:password@hostname1 hcmethod=GET hcexpr=...

Admin 2024-6-2

healthcheck

使用 mTLS 进行 AWS NLB HTTPs 健康检查

是否可以使用 mTLS 进行 AWS NLB HTTPs 健康检查？我尝试设置 TLS 侦听器、加载我的证书、设置带有 HTTPs 健康检查的 TLS 目标组，但是尽管在 NLB 上加载了证书，健康检查仍然失败。 ...

Admin 2024-6-1

healthcheck

Keepalived：当主服务器上的检查脚本发现应用程序的服务已关闭时，不会转换到备份节点

我正在尝试以这样的方式配置keepalived，如果主节点上运行的任何应用程序或服务出现故障，keepalived应该将其视为故障，并且备份节点应该充当主节点并接管主节点的浮动IP。我编写了一个脚本来检查主服务器上的服务 X 是否发生故障，然后它是否应该转换到备份节点。我的 keepalived 配置是： global_defs { enable_script_security } vrrp_script keepalived_check { script "/root/new/check.sh" interval 1 timeout 1 rise 2 ...

Admin 2024-6-1

healthcheck

当其他多个请求返回缓慢时，ECS 会因 health_check 失败而重新启动

我们注意到，我们的 ECS Fargate 后端服务由于健康检查响应超时而重新启动： (service our-site-com-stack-BackendApiServiceStack...) (port 8000) is unhealthy in (target-group arn:aws:elasticloadbalancing:us-east-1:1234:targetgroup/dev-d-ABC-ABC123/ABC123) due to (reason Request timed out). 我们正在尝试弄清楚如何对我们的 ECS 应用程序进...

Admin 2024-6-1