Citrix 场中的随机服务器突然出现蓝屏(主要是 0x0000008e 和 0x0000007e)

Citrix 场中的随机服务器突然出现蓝屏(主要是 0x0000008e 和 0x0000007e)

我负责 Citrix Presentation Server 4.5 服务器群。从 11 月 30 日星期五开始,我的服务器开始随机崩溃。到目前为止,我们已经经历了 80 次崩溃,因此这显然对我们来说是一个越来越大的问题。我有 12 年以上的 IT 经验,所以我知道 0 和 1 之间的区别,但我很难破解这个。

我们已经针对不同的服务器组回滚了我能想到的所有近期更改,但所有组似乎仍然崩溃。我不具备解读内存转储以找出罪魁祸首的技能。

  • 有没有人遇到过相同或类似的问题? - 可能是一般的 Windows 问题
  • 除了在 WinDbg 中执行“analyze -v”之外,我该如何通过内存转储来查看实际触发 BSOD 的原因?
  • 有什么建议步骤来彻底解决这个问题?

任何帮助都将不胜感激。如有必要,我还可以提供内核内存转储或 WinDbg 输出的链接。

谢谢!

问题描述

我们遇到的大多数 STOP 错误是:

  • 0x0000008e内核模式异常未处理 (50%)
  • 0x0000007e系统线程异常未处理 (26%)
  • 0x00000050非分页区域页面错误 (21%)

我们还看到一些0x0000000aIRQL_NOT_LESS_OR_EQUAL (3%)。

对于 0x0000008e 和 0x0000007e 错误检查,异常代码为0xc0000005(访问冲突)。在 WinDbg 中打开转储文件时,对于所有 0x0000008e 和 0x0000007e 错误检查,大多数细节完全相同:

0x0000008e

  • 异常地址:0x808bc9e3
  • 陷阱框架:[各不相同]
  • 失败存储桶 ID:0x8E_nt!HvpGetCellMapped+97
  • 可能由 (IMAGE_NAME) 引起:ntkrpamp.exe

0x0000007e

  • 异常地址:0x808369b6
  • 异常记录地址:0xf70d3be0
  • 上下文记录地址:0xf70d38dc
  • 失败存储桶 ID:0x7E_nt!MmPurgeSection+14
  • 可能原因:memory_corruption

大约 30% 的崩溃发生在 17:00 到 19:00 之间,这让我相信这种情况在注销时更常发生。但话又说回来,只有约 15% 发生在 15:00 到 17:00 之间。

农场概况

  • Windows Server 2003 R2 SP2 上的 Citrix Presentation Server 4.5 R06
  • 所有高优先级补丁(至少截至 10 月已安装)
  • 在 HP Proliant BL460c G6 刀片服务器上使用 VMWare ESX/vSphere 4.1 进行虚拟化
  • 生产中大约有 53 个演示服务器,分为三个孤岛 - 其中只有一个(最大的一个)受到影响
  • 每个演示服务器配备 2 个 vCPU(预留 5 GHz)、8 GB RAM(全部预留)
  • 有足够的可用磁盘空间
  • 很少的打印机驱动程序 - 每晚自动删除未经批准的驱动程序
  • 峰值同时在线用户数约为 1,000,大约在 10:30 达到(工作日)
  • 15:00 至 19:00 之间会话数量稳步下降至约 230

答案1

我们在旧版 citrix (PS4) 上也遇到了类似的问题,问题出在 HP 打印驱动程序上。我必须先清除所有驱动程序,然后才能重新安装相应的驱动程序,这样似乎可以解决蓝屏问题。另外,我对“每晚自动删除未经批准的驱动程序”感到好奇。如果您每晚都清除未经批准的驱动程序,那为什么一开始就允许安装它们呢?您可以在 citrix 策略中阻止它们安装。我认为它位于“打印”->“驱动程序”->“本机打印机驱动程序自动安装”(设置为不自动安装)下

答案2

我们最终应用了 PS 4.5 汇总包 7(未安装,因为它之前破坏了我们的会话可靠性)和许多 R07 后的修补程序。

此外,我们用较新的 UPHClean 1.6g 替换了 UPHClean 2.0 的最新测试版,微软后来已将其作为单独组件放弃(仍内置于更高版本的 Windows 中)。

从此以后农场就稳定了,但为什么在没有任何重大改变的情况下突然爆发混乱,这仍然是一个谜。

相关内容