在重新启动资源之前,我们会收集故障节点上资源的堆转储。
但是,为了最大限度地减少停机时间(因为堆转储收集需要时间),我正在检查是否可以在新节点中启动资源,而不在旧节点中停止它。
如果停止脚本使用 pid 文件来停止进程,我可以想到一些可能有效的肮脏伎俩。但如果成功监控资源,那么事情就会变得更加复杂,因为资源会被阻止等等。
那么,起搏器本身是否有任何选项可以移动资源并告诉集群不要停止特定资源。
我认为以下是可能的,但没有奏效:
- >使资源不受集群管理- >使活动节点待机(在我们的例子中,所有资源始终在同一节点中运行)- >现在我预计所有资源将在新节点中重新启动(非托管资源不启动),以便我可以使用 pcs resource debug-start 手动启动它。
但是,它不起作用,因为特定资源是资源组的一部分,并且它阻止整个资源组移动到新节点。
有任何想法吗?