我有一个 CentOS 7 (1602) 的模板,我已经用它部署了大约 200 台虚拟机,直到我注意到这个问题,所以修复这些虚拟机而不是从头开始是理想的。
VM 会“随机”发生故障,通常是在晚上 7 点到 11 点之间,有时是连续两晚,有时是一两周才发生一次。当一台 VM 发生故障时,大多数 VM 也会发生故障。它们似乎失去了磁盘访问权限。重新启动 VM 可以立即解决问题,并且至少 24 小时内不会再次发生。即使我们第二天才重新启动它们,它们仍然会在此期间重新启动。
一些虚拟机上没有安装任何程序,但仍然有此问题。根分区和启动分区很少使用。日志显示没有问题。
除了这个特定的 centos 模板外,其他虚拟机均未受到影响。我们使用的是 VMWare 4(我知道,我知道),但除此之外,我们从未遇到过任何问题,新映像也没有问题。在发生故障时,我没有看到 VMWare 中的 CPU 或磁盘使用率出现峰值。
这是失败时的屏幕截图:
这是几分钟后尝试访问虚拟机时的屏幕截图:
这些服务器上使用的示例引导脚本: http://pastebin.com/gs3AzV5m
答案1
这可能是由于操作系统支持或资源问题。EL7 不适用于 vSphere 4。VMware 支持矩阵强调了这一点。
我看到您正在使用open-vm-tools
,但看起来您可能遇到了更深层次的问题。
看:https://access.redhat.com/solutions/21849
和:https://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1009996
在 VMWare 下将 RHEL 作为虚拟机运行时,“软锁定”消息可能表示高水平的过度承诺(尤其是内存过度承诺)或其他虚拟化开销。
200 台虚拟机是一个很大的数字,而 vSphere 4 是一个旧版本。我无法想象在如此老的 vSphere 版本上开始新部署,而且我敢肯定您不再受 VMware 支持。
- 基础设施和集群设置是什么样的?
- 有多少位主持人?
- 主机的资源有哪些?RAM 数量?CPU 类型/数量?
- 什么类型的存储?
- 这些虚拟机的 vCPU 和 RAM 配置文件是什么?
你是严重过度承诺你的系统是否已经崩溃?