钻机:
- 戴尔 PowerEdge T610
- 2 个 Intel Xeon 四核
- 16GB 内存
系紧安全带,准备长途旅行,这不是一个具体的问题,而是一个无耻的尝试,以获得一个免费的忍者系统管理员,而不是试图雇佣一个,我听说他们中的一些人徘徊在这些地方:)
因此,我在 Dell PowerEdge 上运行 VMWare ESXi 4.0。我有:
- 6 个 Windows Server 2008 实例,
- 1 个 Windows Server 2003 实例,1
- 1 个 Ubuntu 10 实例,以及 1
- 1 个 Windows XP 实例。
随机地,通常相隔几周,所有虚拟机都会突然停止响应。我可以使用 VSphere Client 进行连接,但每个虚拟机的控制台选项卡仍然是空白的黑屏。网络上的 ping 没有响应。
VMWare 对此没有任何说明,系统日志显示正常,没有任何明显错误。如果我尝试使用 VSphere Client 重新启动或关闭任何虚拟机,通知区域中的显示会达到 95%,然后... 什么都没有。
如果我将键盘和鼠标连接到物理服务器,则有一个选项 F12 可以重新启动,但这样做...是的,你猜对了,什么都没有发生。我已经等了 20-30 分钟,什么也没发生。
我需要一个经验丰富的人来指导我,并给我一些关于如何排除故障和隔离此问题的提示。我暗自怀疑这可能与 SCSI 硬盘阵列有关,在发生此锁定时,提及 SCSI 的消息通常(但并非总是)是系统日志中的最后一项,尽管 VMWare 在这些消息之后继续记录各种平凡的废话,好像什么都没有发生一样。
我是一个忙碌的开发人员,虽然我很想成为一名有才华的系统管理员,但不幸的是我不是,所以任何帮助或建议对于解决我的虚拟机问题都将不胜感激。
答案1
这要么是硬件有问题,要么是某种代码损坏,要么是非常奇怪的错误。
我的建议是立即升级到 4.1U1,这将确保代码是最新的并且不会以任何方式损坏 - 如果您的实际虚拟机位于不同的磁盘组上,我也会在此更新之前擦除操作系统磁盘。
除此之外,这将是一个通常的技巧,即更换零件直到您获得稳定性 - 至少您会怀疑哪个部件可能有故障。
当然,如果您有支持合同,您可以随时致电 VMWare 和/或 Dell。