我负责 Citrix Presentation Server 4.5 服务器群。从 11 月 30 日星期五开始,我的服务器开始随机崩溃。到目前为止,我们已经经历了 80 次崩溃,因此这显然对我们来说是一个越来越大的问题。我有 12 年以上的 IT 经验,所以我知道 0 和 1 之间的区别,但我很难破解这个。
我们已经针对不同的服务器组回滚了我能想到的所有近期更改,但所有组似乎仍然崩溃。我不具备解读内存转储以找出罪魁祸首的技能。
- 有没有人遇到过相同或类似的问题? - 可能是一般的 Windows 问题
- 除了在 WinDbg 中执行“analyze -v”之外,我该如何通过内存转储来查看实际触发 BSOD 的原因?
- 有什么建议步骤来彻底解决这个问题?
任何帮助都将不胜感激。如有必要,我还可以提供内核内存转储或 WinDbg 输出的链接。
谢谢!
问题描述
我们遇到的大多数 STOP 错误是:
- 0x0000008e内核模式异常未处理 (50%)
- 0x0000007e系统线程异常未处理 (26%)
- 0x00000050非分页区域页面错误 (21%)
我们还看到一些0x0000000aIRQL_NOT_LESS_OR_EQUAL (3%)。
对于 0x0000008e 和 0x0000007e 错误检查,异常代码为0xc0000005(访问冲突)。在 WinDbg 中打开转储文件时,对于所有 0x0000008e 和 0x0000007e 错误检查,大多数细节完全相同:
0x0000008e
- 异常地址:0x808bc9e3
- 陷阱框架:[各不相同]
- 失败存储桶 ID:0x8E_nt!HvpGetCellMapped+97
- 可能由 (IMAGE_NAME) 引起:ntkrpamp.exe
0x0000007e
- 异常地址:0x808369b6
- 异常记录地址:0xf70d3be0
- 上下文记录地址:0xf70d38dc
- 失败存储桶 ID:0x7E_nt!MmPurgeSection+14
- 可能原因:memory_corruption
大约 30% 的崩溃发生在 17:00 到 19:00 之间,这让我相信这种情况在注销时更常发生。但话又说回来,只有约 15% 发生在 15:00 到 17:00 之间。
农场概况
- Windows Server 2003 R2 SP2 上的 Citrix Presentation Server 4.5 R06
- 所有高优先级补丁(至少截至 10 月已安装)
- 在 HP Proliant BL460c G6 刀片服务器上使用 VMWare ESX/vSphere 4.1 进行虚拟化
- 生产中大约有 53 个演示服务器,分为三个孤岛 - 其中只有一个(最大的一个)受到影响
- 每个演示服务器配备 2 个 vCPU(预留 5 GHz)、8 GB RAM(全部预留)
- 有足够的可用磁盘空间
- 很少的打印机驱动程序 - 每晚自动删除未经批准的驱动程序
- 峰值同时在线用户数约为 1,000,大约在 10:30 达到(工作日)
- 15:00 至 19:00 之间会话数量稳步下降至约 230
答案1
我们在旧版 citrix (PS4) 上也遇到了类似的问题,问题出在 HP 打印驱动程序上。我必须先清除所有驱动程序,然后才能重新安装相应的驱动程序,这样似乎可以解决蓝屏问题。另外,我对“每晚自动删除未经批准的驱动程序”感到好奇。如果您每晚都清除未经批准的驱动程序,那为什么一开始就允许安装它们呢?您可以在 citrix 策略中阻止它们安装。我认为它位于“打印”->“驱动程序”->“本机打印机驱动程序自动安装”(设置为不自动安装)下
答案2
我们最终应用了 PS 4.5 汇总包 7(未安装,因为它之前破坏了我们的会话可靠性)和许多 R07 后的修补程序。
此外,我们用较新的 UPHClean 1.6g 替换了 UPHClean 2.0 的最新测试版,微软后来已将其作为单独组件放弃(仍内置于更高版本的 Windows 中)。
从此以后农场就稳定了,但为什么在没有任何重大改变的情况下突然爆发混乱,这仍然是一个谜。