我有一个 win2k(混合模式域),有 4 个 DCS。其中一个还充当 Exchange 2000 服务器,使用 MSA 2000 阵列中的 2 个逻辑卷。AD 等存储在本地驱动器上。
上周我们遇到了一个问题,当时 RAID 阵列回退到冗余控制器,这暂时意味着两个逻辑驱动器在大约 5 分钟内对服务器不可见,并且需要重新启动几次。日志记录了这些
Events as Type: Warning
Event Source: Disk
Event Category: None
Event ID: 51
Date: 06/11/2009
Time: 11:46:23
User: N/A
Computer: server1
Description:
An error was detected on device \Device\Harddisk1\DR1 during a paging operation.
出现这些问题后,服务器“kerberos Key Distribution”服务拒绝启动并出现错误:A device attached to the system is not functioning
。所有其他自动启动服务(包括网络登录)均在运行,并且不存在 DNS 问题等。
所有设备也都在运行,但是两个逻辑 MSA 磁盘现在在 Windows 磁盘管理 MMC 中编号为 2 和 4,我怀疑它们之前可能被识别为磁盘 1 和 2,也许 Windows 仍然将此视为持续故障??
复制没有受到影响,但显然安全日志中与用户和工作站相关的许多审计失败,可能与 Kerberos 问题有关。
尝试手动启动 kerberos 服务会在系统日志中生成以下内容。
Event Type: Error
Event Source: Service Control Manager
Event Category: None
Event ID: 7023
Date: 09/11/2009
Time: 09:46:55
User: N/A
Computer: Server1
Description:
The Kerberos Key Distribution Center service terminated with the following error:
A device attached to the system is not functioning.
DCDIAG 通过了除“广告”和“服务”之外的所有测试,我认为这与 Kerberos 的失败直接相关。
任何意见,将不胜感激。
答案1
我想知道卷 GUID 是否以某种方式发生了变化。Active Directory 数据库位置保存在注册表中(请参阅 HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\NTDS\Parameters\DS Drive Mappings)。这就是我能想到的关于可能发生的事情的全部内容,而这并不是真正的“用户可维护的部分”。
您所看到的情况让我对机器能否再次正常运行缺乏信心。(我不会相信该磁盘阵列或 RAID 控制器,如果它要关闭并重新编号它呈现给 Windows 的磁盘,我会扔掉它,但那是另一回事。)
如果在此次中断期间仍有用户在该机器上使用 Exchange,则从备份进行恢复可能会有问题,因为机器上堆积了更多的数据。
我会在另一台机器上启动一台临时的 Exchange Server 计算机,将所有邮箱移至该辅助服务器,复制您的公共文件夹、OAB 等,以便您可以正确停用故障服务器上的 Exchange。您需要让故障服务器运行足够长的时间,以便所有用户都能在新位置访问他们的邮箱一次,这样 Outlook 就会更新他们的 MAPI 配置文件以引用临时服务器的名称。
完成此操作后,我将从头开始重建故障的服务器,并在必要时执行 NTDS 元数据清理,如果它无法正确降级回成员服务器(请参阅http://support.microsoft.com/kb/216498)。
重建机器后,您可以重新安装 Exchange 并移回邮箱、复制公用文件夹等。同样,您需要让两台 Exchange Server 计算机一起运行,直到所有用户都至少访问过他们的邮箱一次,以便更新他们的 MAPI 配置文件,然后您就可以停用临时的 Exchange Server 计算机。