我有一个简单的四节点 Oracle VM 环境。一个在 vmware 中运行的管理服务器、一个用于共享存储的 nfs 服务器和两个运行实际虚拟机管理程序的 Oracle VM 服务器。
由于某种原因,运行池主服务的节点会突然无缘无故地重新启动。我相当肯定这是一个软件问题,可能是某种集群看门狗。需要明确的是,重新启动的是虚拟机服务器/虚拟机管理程序,而不是客户机。
有没有人遇到过类似的问题,或者对我应该从哪里开始寻找根本原因有什么建议?
我在 /var/log/ovs*/ 日志中没有看到任何可疑的内容,我应该查看其他地方吗?
Oracle 的文档有些不尽如人意。
答案1
我不确定您是否有 VM 管理附带的精美图表。如果有,它们确实提供了大量有关内存、CPU 和磁盘正在做什么的见解。也许可能存在某种关联?从那里,您可以开始查看 top 和 ps,以查看服务器反弹时正在运行和使用的内容。
您还可以将服务器设置为调试模式吗?他们支持吗?
我希望这至少能帮助你起步。
答案2
事实证明,由于节点主机名列在 /etc/hosts 中的环回地址上,因此节点无法正确通信。集群服务会默默强制重新启动以保护共享存储。
答案3
您使用 ocfs2 吗?如果是,请在 /etc/sysconfig/o2cb.conf 中增加 ocfs2 超时