Server 2008 BSOD 大约每周一次

Server 2008 BSOD 大约每周一次

我陷入困境,希望有人能帮忙。

我所拥有的如下:配备一个 Xeon 2.7 GHz 处理器、18GB Ram、Server 2008 x64 SP2 的 Dell R710 我正在使用大约 5 台服务器运行 HyperV。

从一月份开始我就遇到了崩溃的问题。

第一次是虚拟机之一(Server 2003 SBS)。它崩溃了,事件日志中没有错误条目,也没有崩溃转储。服务器自行恢复。

上周,主机服务器(2008 服务器)崩溃了两次,大约一周后的今天又崩溃了一次。同样,事件日志中没有任何条目,也没有崩溃转储,它又自行启动了。

我在 1 月初对服务器进行了更改。我更新了网络驱动程序 (Broadcom) 并添加了 Teaming Software,并将两个接口组合在一起。我还将所有服务器上的 Symantec Endpoint Protection 升级到最新版本 12。我还更换了交换机,但这不是问题的一部分。

我以为这是内存问题,因为其中一个虚拟机和主机都崩溃了。但也可能是赛门铁克的问题。

我没有所有的崩溃转储,因为配置服务器的那个白痴没有在系统驱动器上留下足够的空间来复制 DMP 文件

以下是其中一个 DMP 文件:

Microsoft (R) Windows Debugger Version 6.12.0002.633 AMD64
Copyright (c) Microsoft Corporation. All rights reserved.


Loading Dump File [C:\Windows\Minidump\Mini012412-01.dmp]
Mini Kernel Dump File: Only registers and stack trace are available

Symbol search path is: SRV*e:\symbols*http://msdl.microsoft.com/download/symbols
Executable search path is: 
Windows Server 2008/Windows Vista Kernel Version 6002 (Service Pack 2) MP (8 procs) Free x64
Product: Server, suite: TerminalServer SingleUserTS
Built by: 6002.18484.amd64fre.vistasp2_gdr.110617-0336
Machine Name:
Kernel base = 0xfffff800`01c1d000 PsLoadedModuleList = 0xfffff800`01de1dd0
Debug session time: Tue Jan 24 18:58:02.334 2012 (UTC - 5:00)
System Uptime: 9 days 13:32:35.727
Loading Kernel Symbols
...............................................................
................................................................
.............................
Loading User Symbols
Loading unloaded module list
..................................................
*******************************************************************************
*                                                                             *
*                        Bugcheck Analysis                                    *
*                                                                             *
*******************************************************************************

Use !analyze -v to get detailed debugging information.

BugCheck 7F, {8, 80050033, 6f8, fffff80001c70da4}

Probably caused by : NETIO.SYS ( NETIO!MatchValues+14e )

Followup: MachineOwner
---------

我已经禁用了 Teaming

下面是另一个:

Windows Server 2008/Windows Vista Kernel Version 6002 (Service Pack 2) MP (8 procs) Free x64
Product: Server, suite: TerminalServer SingleUserTS
Built by: 6002.18484.amd64fre.vistasp2_gdr.110617-0336
Machine Name:
Kernel base = 0xfffff800`01c4b000 PsLoadedModuleList = 0xfffff800`01e0fdd0
Debug session time: Sat Jan 28 07:42:48.945 2012 (UTC - 5:00)
System Uptime: 0 days 21:36:52.143
Loading Kernel Symbols
...............................................................
................................................................
.............................
Loading User Symbols
Loading unloaded module list
...........
*******************************************************************************
*                                                                             *
*                        Bugcheck Analysis                                    *
*                                                                             *
*******************************************************************************

Use !analyze -v to get detailed debugging information.

BugCheck 7F, {8, 80050033, 6f8, fffff80001ceeaa2}

Probably caused by : ntkrnlmp.exe ( nt!KiDoubleFaultAbort+b8 )

Followup: MachineOwner
---------

3: kd> !analyze -v
*******************************************************************************
*                                                                             *
*                        Bugcheck Analysis                                    *
*                                                                             *
*******************************************************************************

UNEXPECTED_KERNEL_MODE_TRAP (7f)
This means a trap occurred in kernel mode, and it's a trap of a kind
that the kernel isn't allowed to have/catch (bound trap) or that
is always instant death (double fault).  The first number in the
bugcheck params is the number of the trap (8 = double fault, etc)
Consult an Intel x86 family manual to learn more about what these
traps are. Here is a *portion* of those codes:
If kv shows a taskGate
        use .tss on the part before the colon, then kv.
Else if kv shows a trapframe
        use .trap on that value
Else
        .trap on the appropriate frame will show where the trap was taken
        (on x86, this will be the ebp that goes with the procedure KiTrap)
Endif
kb will then show the corrected stack.
Arguments:
Arg1: 0000000000000008, EXCEPTION_DOUBLE_FAULT
Arg2: 0000000080050033
Arg3: 00000000000006f8
Arg4: fffff80001ceeaa2

Debugging Details:
------------------


USER_LCID_STR:  ENU

OS_SKU:  7

BUGCHECK_STR:  0x7f_8

CUSTOMER_CRASH_COUNT:  1

DEFAULT_BUCKET_ID:  DRIVER_FAULT_SERVER_MINIDUMP

PROCESS_NAME:  System

CURRENT_IRQL:  d

LAST_CONTROL_TRANSFER:  from fffff80001ca522e to fffff80001ca5490

STACK_TEXT:  
fffffa60`019e9a68 fffff800`01ca522e : 00000000`0000007f 00000000`00000008 00000000`80050033 00000000`000006f8 : nt!KeBugCheckEx
fffffa60`019e9a70 fffff800`01ca3a78 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiBugCheckDispatch+0x6e
fffffa60`019e9bb0 fffff800`01ceeaa2 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiDoubleFaultAbort+0xb8
fffffa60`005a8000 00000000`00000000 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!HvlEndSystemInterrupt+0x2


STACK_COMMAND:  kb

FOLLOWUP_IP: 
nt!KiDoubleFaultAbort+b8
fffff800`01ca3a78 90              nop

SYMBOL_STACK_INDEX:  2

SYMBOL_NAME:  nt!KiDoubleFaultAbort+b8

FOLLOWUP_NAME:  MachineOwner

MODULE_NAME: nt

IMAGE_NAME:  ntkrnlmp.exe

DEBUG_FLR_IMAGE_TIMESTAMP:  4dfb5a33

FAILURE_BUCKET_ID:  X64_0x7f_8_nt!KiDoubleFaultAbort+b8

BUCKET_ID:  X64_0x7f_8_nt!KiDoubleFaultAbort+b8

Followup: MachineOwner
---------

希望我能在这里得到一些急需的指导。

谢谢

答案1

说到 BSOD,99% 是驱动程序问题。

您可以更改配置以仅存储内核转储而不是完整的 RAM 转储,这样您就可以保留更多内容。

我会做什么:

  1. 升级 Broadcom 驱动程序。我知道你说你做到了,但请再检查一下,是来自 Broadcom,而不是 Dell。总是有 6 个月的延迟。
  2. 检查网卡上的设置,如接收和发送缓冲区。如有疑问,请恢复出厂设置
  3. 禁用临时 Symantec 进行检查。还要确保您的端点驱动程序是最新的。我已经看到 Symantec 的更新留下了较旧的驱动程序版本。

答案2

您尝试过以下修补程序吗?我们的 R710 套装也遇到过此问题,但不确定现在是否已将其包含在更新中。

http://support.microsoft.com/kb/975530

答案3

Microsoft 建议在使用 Hyper-V 时不要将 NICS 组合在一起。我很高兴你把它关掉了。我想这可能是问题所在。如果你觉得这是内存问题,请尝试取出两个笨拙的 RAM 模块。18GB 似乎不行。你应该至少有 16GB。我可能会从那里开始。

相关内容