我有一台运行 esxi 5.1 的 Dell R510,配有 16GB 内存;1 个 CPU(Xeon L5520 @ 2.27HGz;4 核),运行一台 Server 2012 机器。我今天早上来到这里
核心转储。我按住电源按钮并重新启动。它回到了“VMWARE 恢复”屏幕,10-20 分钟后,我回来时它又回到了正常屏幕(Vmware 信息;IP 地址管理信息等),机器上的单个服务器已重新启动。问题是,从那时起,它似乎变得异常缓慢。服务器似乎没问题;性能监视器从未达到最大值。最常用的似乎是网络;我只有一个 NIC 在用(我们总共有大约 10 个用户访问服务器上的数据文件,它正在运行 DNS、AD 和 DHCP 服务)。我更换了一个交换机,认为它可能是罪魁祸首,但结果仍然相同。偶尔,我与服务器的 RDP 会话会丢失,但最终会恢复。
有什么想法可以找到导致速度变慢的罪魁祸首吗?有什么想法可以尝试提高性能吗?单个 NIC 是否足以满足 10 个用户的文件共享(我们主要使用 Quicken 文件和 Office xls/word)需求,不需要太过密集。
我曾尝试添加另一个 NIC 并将它们“组合”,但是这破坏了一切,而且我很难再回去改变一切,因为“组合”的 nic 决定使用 dhcp 而我无法访问 dhcp 服务器来查找地址(因为该服务器是 dhcp 服务器)。
感谢您的任何想法。
更新
此后,我已将服务器从网络上移除,并将其移至另一个位置。自从它脱离网络以来,它一直运行良好(注:在我脱离网络之前,还有一次核心转储,与图片中相同)。这可能是外部映射 iSCSI 数据存储的结果吗?我在主机上安装了 2 个 iSCSI 数据存储,vmkernel 日志中出现无法登录的错误,但至少有些错误是已知的:https://kb.vmware.com/s/article/1031221但不确定其他的。以下是 vmkernel 错误的几张截图:https://i.stack.imgur.com/xYc0V.jpg
另外,这是来自 vmkernel.log 的最新消息的 pastebin。我还可以上传 syslog、usb、vmkeventd、vmksummary、vmkwarning、vprobed 和 vpxa.log 文件。https://pastebin.com/rmp3k1G5
更新 2
我让机器运行了一个周末,到目前为止,它仍然运行良好。没有恐慌,没有崩溃。想知道通过 iSCSI 映射为数据存储的外部 NAS 设备是否是罪魁祸首?尤其令人担忧,因为我在其他几台主机上也有这些设备……
答案1
堆栈跟踪以 megasas 结尾,这意味着对 MegaRAID(您可能有一些 RAID 阵列)的命令可能意外失败或存在驱动程序错误。我建议同时更新 MegaRAID 固件和 ESXi 驱动程序(并且可能同时更新 ESXi 本身)。ESXi 5.1 已经过时了,但您仍然可以从 VMware 网站获取更新和异步驱动程序。
我的直觉告诉我存储出了问题 - 这也可以解释由非常高的磁盘延迟引起的缓慢现象(您应该在 PerfMon 或资源监视器或 vSphere Client 监视中看到它)。在 megacli/storcli 中检查 RAID 和磁盘状态或重新启动到 WebBIOS 以检查阵列和驱动器状态。
答案2
我的第一个猜测是“存储”。
磁盘和卷是如何配置的?使用的是哪种 RAID?
我很确定你有一个正在重建或者降级的磁盘阵列;这可以解释速度缓慢的原因。