昨晚我们收到来自 vCenter 的通知,说无法连接到我们其中一台主机上的代理,并且“主机和电源状态”错误且服务器已断开连接。
主机上运行任何客人都没有问题,所以我们把它留到早上了。
但在检查任务和事件以及警报日志时,我们什么也没发现。主机日志也显示当时没有问题。
没有任何迹象表明发生了任何错误,也没有任何迹象表明该通知与任何事情有关。
即使问题是暂时的并可自行修复,日志中难道不应该有一些内容表明发生了某种类型的问题吗?
此外,如果它确实自动恢复了,为什么 vCenter 在系统恢复时没有发送通常的“哦,嗨,一切都很好”通知?
答案1
关于警报清除时的警报,您需要更改警报定义,以便在状态变为“绿色”时触发通知,而不是默认的通知,默认通知在状态变为“从绿色”的任何状态时触发。要做到这一点:
- 打开 vSphere Client
- 选择树顶部的虚拟中心
- 选择“警报”选项卡
- 选择‘定义’
- 选择要更改的警报定义(例如“主机连接状态”)
- 右键点击 -> 编辑设置
- 切换到“操作”选项卡
- 定义最后一列的警报操作(状态从警告变为绿色)
这是您需要配置的列:
关于断开连接,您运行的是 ESXi 还是 ESX?ESXi 上的日志记录滚动非常快(尤其是消息),因此您可能无法回溯到足够远的距离来查看断开连接的信息。如果是这种情况,您可以通过将主机配置为记录到外部系统日志服务器来纠正它。我们最近看到了由于奇怪原因而导致的主机断开连接问题,最明显的是主机和 vcenter 之间的检查点设备干扰了数据包顺序(通过其“智能”IDS),并导致主机定期陷入无法管理的状态,直到我们重新启动管理服务。主机和 vcenter 之间是否有任何 WAN 链接或防火墙?