尝试在大型 (~80 个节点) 集群上创建用于 http 服务检查的集群检查。我希望它在 40 多个节点处于非正常状态时发出警告,在 60 多个节点处于非正常状态时发出警告。
命令定义是:
define command {
command_name check_cluster
command_line $USER1$/check_cluster --service -l $ARG1$ -w $ARG2$ -c $ARG3$ -d $ARG4$
}
服务定义是:
define service {
name Laborer Clutser check
service_description laborer_cluster
hostgroup_name laborer_cluster
use generic-http-1min
check_command check_cluster!@40!@60!"laborer cluster"!$SERVICESTATEID:cs01:laborer-http$,$SERVICESTATEID:cs02:laborer-http$,$SERVICESTATEID:cs03:laborer-http$,..$SERVICESTATEID:csNN:laborer-http$
但由于某种原因,只要有一台主机处于不正常状态,它就会发出警告: