当 ECS 服务无法持续成功启动任务时创建 CloudWatch 警报

Question

我有以下基础设施，我认为它们可以满足这一要求：

指标上的警报AWS/ApplicationELB有时UnHealthyHostCount会触发
具有以下模式的事件规则转发到 SNS 以捕获失败的任务：

{
    "source": [
        "aws.ecs"
    ],
    "detail-type": [
        "ECS Task State Change"
    ],
    "detail": {
        "group": [
            "service:${var.ecs_service_name}"
        ],
        "stoppedReason": [
            "Essential container in task exited"
        ]
    }
}

具有以下模式的事件规则转发到 SNS，以捕获有时触发的“无法持续成功启动任务”事件：

{
    "source": [
        "aws.ecs"
    ],
    "detail-type": [
        "ECS Service Action"
    ],
    "resources": [
        "${var.ecs_service_arn}"
    ],
    "detail": {
        "eventType": ["WARN", "ERROR"]
    }
}

当发生 2 或 3 时触发指标AWS/Events/上的警报TriggeredRules

这是一种相当混乱的方法，但却是我能找到的最好的方法。我很失望 ECS 没有发布跟踪这种常见情况的指标。

（我没有订阅上面创建的 SNS 主题的任何内容；它们的存在只是为了使上述规则有效。如果需要，可以在 ECS 控制台中查看事件。）

Answer 1

我有以下基础设施，我认为它们可以满足这一要求：

指标上的警报AWS/ApplicationELB有时UnHealthyHostCount会触发
具有以下模式的事件规则转发到 SNS 以捕获失败的任务：

{
    "source": [
        "aws.ecs"
    ],
    "detail-type": [
        "ECS Task State Change"
    ],
    "detail": {
        "group": [
            "service:${var.ecs_service_name}"
        ],
        "stoppedReason": [
            "Essential container in task exited"
        ]
    }
}

具有以下模式的事件规则转发到 SNS，以捕获有时触发的“无法持续成功启动任务”事件：

{
    "source": [
        "aws.ecs"
    ],
    "detail-type": [
        "ECS Service Action"
    ],
    "resources": [
        "${var.ecs_service_arn}"
    ],
    "detail": {
        "eventType": ["WARN", "ERROR"]
    }
}

当发生 2 或 3 时触发指标AWS/Events/上的警报TriggeredRules

这是一种相当混乱的方法，但却是我能找到的最好的方法。我很失望 ECS 没有发布跟踪这种常见情况的指标。

（我没有订阅上面创建的 SNS 主题的任何内容；它们的存在只是为了使上述规则有效。如果需要，可以在 ECS 控制台中查看事件。）

当 ECS 服务无法持续成功启动任务时创建 CloudWatch 警报

答案1

相关内容