糟糕的 CentOS 模板之谜——所有基于此模板的 VMware VM 有时都会崩溃

糟糕的 CentOS 模板之谜——所有基于此模板的 VMware VM 有时都会崩溃

我有一个 CentOS 7 (1602) 的模板,我已经用它部署了大约 200 台虚拟机,直到我注意到这个问题,所以修复这些虚拟机而不是从头开始是理想的。

VM 会“随机”发生故障,通常是在晚上 7 点到 11 点之间,有时是连续两晚,有时是一两周才发生一次。当一台 VM 发生故障时,大多数 VM 也会发生故障。它们似乎失去了磁盘访问权限。重新启动 VM 可以立即解决问题,并且至少 24 小时内不会再次发生。即使我们第二天才重新启动它们,它们仍然会在此期间重新启动。

一些虚拟机上没有安装任何程序,但仍然有此问题。根分区和启动分区很少使用。日志显示没有问题。

除了这个特定的 centos 模板外,其他虚拟机均未受到影响。我们使用的是 VMWare 4(我知道,我知道),但除此之外,我们从未遇到过任何问题,新映像也没有问题。在发生故障时,我没有看到 VMWare 中的 CPU 或磁盘使用率出现峰值。

这是失败时的屏幕截图:

失败时

这是几分钟后尝试访问虚拟机时的屏幕截图:

失败之后

这些服务器上使用的示例引导脚本: http://pastebin.com/gs3AzV5m

答案1

这可能是由于操作系统支持或资源问题。EL7 不适用于 vSphere 4。VMware 支持矩阵强调了这一点。

在此处输入图片描述

我看到您正在使用open-vm-tools,但看起来您可能遇到了更深层次的问题。

看:https://access.redhat.com/solutions/21849
和:https://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1009996

在 VMWare 下将 RHEL 作为虚拟机运行时,“软锁定”消息可能表示高水平的过度承诺(尤其是内存过度承诺)或其他虚拟化开销。

200 台虚拟机是一个很大的数字,而 vSphere 4 是一个旧版本。我无法想象在如此老的 vSphere 版本上开始新部署,而且我敢肯定您不再受 VMware 支持。

  • 基础设施和集群设置是什么样的?
  • 有多少位主持人?
  • 主机的资源有哪些?RAM 数量?CPU 类型/数量?
  • 什么类型的存储?
  • 这些虚拟机的 vCPU 和 RAM 配置文件是什么?

你是严重过度承诺你的系统是否已经崩溃?

相关内容