VMWare 为何会停止服务?如何恢复/预防?

VMWare 为何会停止服务?如何恢复/预防?

我在双核 Intel i5 上运行 VMWare Server 2.0.2(Build 203138),并安装有 Ubuntu Server 10.04 LTS 系统(内核2.6.32-22-server #33-Ubuntu SMP)。磁盘子系统是一个软件 RAID5 阵列。

系统已安装一周多一点。过去 5 天,我至少运行了 3 台虚拟机(Linux 和各种 Windows 操作系统),没有任何问题。但是,当我将 Linux 安装到新虚拟机上时,突然所有虚拟机都变得无响应,包括我正在安装的虚拟机。我无法登录 VMWare 管理界面,系统通过 SSH 也有点无响应。当我查看时top,我看到:

top - 16:14:51 up 6 days,  1:49,  8 users,  load average: 24.29, 24.33 17.54
Tasks: 203 total,   7 running, 195 sleeping,   0 stopped,   1 zombie
Cpu(s):  0.2%us, 25.6%sy,  0.0%ni, 74.3%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:   8056656k total,  5927580k used,  2129076k free,    20320k buffers
Swap:  7811064k total,   240216k used,  7570848k free,  5045884k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                                                                                                                                                               
21549 root      39  19     0    0    0 Z  100  0.0  15:02.44 [vmware-vmx] <defunct>
 2115 root      20   0     0    0    0 S    1  0.0 170:32.08 [vmware-rtc]
 2231 root      21   1 1494m 126m 100m S    1  1.6 892:58.05 /usr/lib/vmware/bin/vmware-vmx -# product=2;                                                                                                                                                                                       
 2280 jnet      20   0 19320 1164  800 R    0  0.0  30:04.55 top 
12236 root      20   0  833m  41m  34m S    0  0.5  88:34.24 /usr/lib/vmware/bin/vmware-vmx -# product=2;
    1 root      20   0 23704 1476  920 S    0  0.0   0:00.80 /sbin/init                                                                                                                                                                                             
    2 root      20   0     0    0    0 S    0  0.0   0:00.01 [kthreadd]                                                                                                                                                                                             
    3 root      RT   0     0    0    0 S    0  0.0   0:00.00 [migration/0]                                                                                                                                                                                          
    4 root      20   0     0    0    0 S    0  0.0   0:00.84 [ksoftirqd/0]                                                                                                                                                                                          
    5 root      RT   0     0    0    0 S    0  0.0   0:00.00 [watchdog/0]                                                                                                                                                                                           
    6 root      RT   0     0    0    0 S    0  0.0   0:00.00 [migration/1]                                                                                                                                                                                          

我安装的虚拟机的 VMWare 进程变成了僵尸进程。然而,它仍然在其中一个核心上消耗 100% 的 CPU 时间,我无法访问它或任何其他虚拟机。(我通过 SSH 登录到一台虚拟机,通过 X11 登录到另一台虚拟机,通过 VNC 登录到第三台虚拟机。所有三个连接都断开了)。当我运行ps -ef和类似的命令时,我发现已停用的vmware-vmx进程的父 PID 设置为init(1)。我还使用lsof -p 21549并发现已停用的进程没有打开文件。但它占用了 100% 的 CPU 时间……

我无法杀死任何 vmware-vmx进程,包括已停止的进程,甚至使用kill -9。作为解决该情况的最后手段,我尝试重新启动该框,但是,,,shutdown和所有都无法重新启动/关闭,即使给出了适当的设置。在控制台上产生了一条关于重新启动的消息,但系统不会重新启动。我不得不对框进行硬电源循环以解决该情况。(请参阅我的另一个问题,haltrebootinit 6--forceControlAltDel崩溃或内核崩溃后我是否应该担心 Linux 软件 RAID5 的完整性?

什么会导致这种情况?除了硬重启之外,我还能做什么来解决这个问题?我能做些什么来防止将来再次出现这种情况?

答案1

查看此 VMWare 论坛帖子,看看是否有帮助: http://communities.vmware.com/message/531884#531884

如果您有 RAM,禁用内存共享通常是一个好主意。

我在这里编译了一些针对 Ubuntu 上的 VMWare Server 2 使用的优化: http://www.stress-free.co.nz/vmware_server_20_optimisations

我从未遇到过您描述的问题,并且我正在运行带有 Ubuntu Server 8.04LTS 和 10.04LTS(32 位和 64 位)的生产服务器。

答案2

不幸的是,我一直没能找到解决这个问题的方法。这似乎是 VMware Server 固有的一个问题。

从那时起,我们就迁移到了 VMWare ESXi。它比 ESXi 好太多了,无可比拟!我从未遇到过与 ESXi 类似的问题。

相关内容