我有两个前端 Exchange 2003 服务器,都是虚拟机,并且都位于我的 dmz 中运行 vmware 服务器的不同物理 Linux 机器上。
几天前,我的所有 Nagios 警报都超时了,而且 ping 检查的错误率很高。在这个前端交换虚拟机上,我在事件查看器的系统部分看到了以下内容,似乎表明在此期间磁盘超时/出现问题(其他部分没有追溯到太远,因为有垃圾邮件通知,必须修复它):
Event Type: Error
Event Source: vmscsi
Event Category: None
Event ID: 9
Date: 12/12/2009
Time: 9:25:19 AM
User: N/A
Computer: FOO
Description:
The device, \Device\Scsi\vmscsi1, did not respond within the timeout period.
在 Linux 主机上,我没有在 /var/log/messages 或 /var/log/vmware(或其他任何内容)中看到任何提示。在 sar 日志中,我确实看到此时的 IOWait ~22 比我在其他地方看到的更高,通常只有在备份运行时才会飙升到 11 左右,而此时并没有。这可能是由于磁盘从阵列中掉出来而发生的,有人知道我如何在 Poweredge 2950 上检查它(使用 dset?)。
在另一台前端虚拟机上,我得到了以下内容(这个,我真的不知道它是什么意思,主浏览器?):
Event Type: Error
Event Source: MRxSmb
Event Category: None
Event ID: 8003
Date: 12/12/2009
Time: 9:33:16 AM
User: N/A
Computer: FOO
Description:
The master browser has received a server announcement from the computer FOO02 that believes that it is the master browser for the domain on transport NetBT_Tcpip_{..... The master browser is stopping or an election is being forced.
因此,除了上述问题之外,我真的想弄清楚发生了什么,因为一切似乎都自行恢复了,有什么想法吗?
更新:
发现这个对我来说很新的 megacli 实用程序,但是从这次事件后的第二天开始,我看到很多:
Code: 0x00000071
Class: 0
Locale: 0x02
Event Description: Unexpected sense: PD 03(e1/s3), CDB: 28 00 0a 8c 60 5d 00 00 08 00, Sense: f0 00 03 0a 8c 60 5d 0a 00 00 00 00 11 00 00 00 00 0
Event Data:
===========
Device ID: 3
Enclosure Index: 1
Slot Number: 3
来自/opt/MegaRAID/MegaCli/MegaCli -AdpEventLog -GetEvents -f events.log -aALL && cat events.log
。这听起来不太好,有人知道这具体是什么意思吗?
答案1
主浏览器事件是正常的并且不相关,可以忽略。
RAID 日志是神秘的,但由于它列出了 slot3,所以我认为它不喜欢插槽 3 中的驱动器。戴尔或 LSI 网站上的某个地方应该有关于该事件的文档。
您可以通过运行阵列验证来测试阵列。我不确定您是否可以通过操作系统中的该实用程序执行此操作,它可以从启动时访问的 RAID 设置实用程序运行。
如果您有备用插槽和驱动器,那么您可以放入新驱动器,使其成为全局热备用,将驱动器拉入插槽 3,让所有驱动器故障转移到备用驱动器。然后,您可以在没有时间压力的情况下测试/更换插槽 3 驱动器。