未知工具正在清除我们的虚拟机,我们无法识别它

未知工具正在清除我们的虚拟机,我们无法识别它

vSphere 上的 Windows 2008 R2 VM 的控制台视图显示以下屏幕:

程序截图

“操作 2/2” “擦除磁盘”

有人可以告知这个程序是什么吗?

关于这个谜团的一些信息:

现在许多虚拟机都受到影响。症状是重启后出现“未找到操作系统”消息。

  • VM 在 ESXi 上运行。VM 在特定数据存储上运行
  • Netapp NFS 在工作箱中安装磁盘时没有显示分区表,尚无法进行十六进制转储。
  • VM 未进行硬重置,必须是操作系统启动的软重置
  • 没有安装 iso 没有“非来宾”访问 VM,因此需要 RDP 或类似方式
  • 使用 netapp 备份软件在夜间进行备份
  • 有问题的 NFS 在后端(阵列级别)进行了精简配置,在我们看到这些问题后就用完了空间。

答案1

不幸的是,我们似乎无法弄清楚这个申请到底是什么,但为了得到一些鉴于此事件的价值,我想创建一个参考答案。这是以 VMware 和虚拟层管理为中心的。许多管理员处于隔离状态,无法快速获得访客或存储访问权限,这是为他们准备的 :)

http://support.seagate.com/kbimg/flash/laptop/Laptop.swf似乎与@MosheKatz 发现的实际应用程序最接近。

如果将来再发生这种情况,调查应如下进行:

  • 您注意到部分虚拟机崩溃了,但并非所有虚拟机都崩溃了。您怀疑这是由于存储问题(因为这通常是最可能的原因)
  • 首先尝试找出一个共同因素。所有崩溃的虚拟机是否共享同一个数据存储?在本例中确实如此,但有些机器没有问题,因此我们排除了明显的硬件问题。
  • 检查所有损坏的虚拟机,看看是否存在共同因素(时间、功能等)。在本例中没有。
  • 检查其他异常事件。这里有一些异常情况:

    • NFS 存储是精简备份(在阵列级别)。这意味着尽管向 ESXi 主机提供了 200GB,但实际上只有 100GB 可用。但只有阵列知道这一点。我们发现许多虚拟机因磁盘空间不足而暂停。我们认为这可能是根本原因,所以我们的第一步是在后端分配更多存储空间,以消除此问题。
  • 这个问题解决后(简单的 UI 更改),暂停的虚拟机成功重启,我们回到了最初的问题。我们将损坏的虚拟机中的虚拟磁盘安装到正常运行的虚拟机上,发现磁盘上没有分区表。我们没有十六进制查看器,所以只能假设磁盘现在是空的。

  • 监控系统对刚刚停止响应的新虚拟机发出警报。这很棒,因为几分钟前,大量虚拟机刚刚因为磁盘空间问题而停止响应,因此能够快速发现这台新虚拟机是监控管理良好的标志。

  • 我们打开了控制台并检查了客人,并看到了上面的屏幕截图。

    • 此时我进入服务器故障聊天室,查看是否可以识别该程序,而我的存储同事检查所有虚拟层日志和事件,以确保我们所在区域没有运行存储操作。
  • 我们应该做的是暂停虚拟机,允许写出暂停文件,并分析转储以查看是否可以识别正在运行的程序。将 VM 暂停至核心 PDF VMware 知识库

最终,我们知道虚拟基础架构工具不会像上面那样在客户机中报告。我们可以看到没有安装 ISO,也没有针对虚拟机记录任何事件。我们可以看到虚拟机没有“硬电源循环”,只有软重启(这对底层基础架构是不可见的)。我们知道这不是存储方面的问题,因为我们已经排除了这一点。我们怀疑它不是自动的,因为它在几个小时内发生在特定的虚拟机上。我们猜测它不是恶意的,因为如果是恶意的,控制台为什么会报告磁盘擦除 :)

因此,结论是用户发起了磁盘擦除。这就是我的调查结果,但我希望您觉得它有用。

得到教训:

  • 备份并测试恢复
  • 确保所有用户(特别是管理员用户)知道他们在精简配置的环境中工作,并且应避免任何类似写出磁盘格式化的操作(即写入大量的 1
  • 建立良好的监控系统。
  • 对我来说还有一个新问题:在任何大型虚拟环境中,都要准备好一个工具虚拟机,即使已关闭,也要安装诊断工具;性能、网络存储。如果这些可用,我们可以安装损坏的磁盘并执行十六进制转储,以查看它是否真的是空的,或者只是缺少一个 mbr。我们还可以查看它是否用 1 写出。

答案2

我认为您的问题是标准的 VMware 空间回收功能。

这篇文章或许能帮到你:解决空间高效的虚拟磁盘问题

相关内容