有人能描述一下离散传感器在 IPMI 世界中是如何工作的吗?
在 IPMI 规范中,有用于处理器和内存的离散类型的“传感器”。
是否真的存在一个 SW/固件实体,用于监控内存中的 ECC 错误,并在发生某些事情时生成一些事件?如果是这样,IPMI 是否在进行实际测试以查找 ECC 错误?尝试了解这种传感器背后发生了什么。
答案1
IPMI 中通常有两种类型的传感器:阈值和离散。阈值传感器本质上是一种模拟传感器,用于测量温度、电压或风扇速度等。离散传感器只是一种二进制传感器,只有两种状态,例如开/关、存在/不存在或无错误/错误。这些传感器被分组为一个 16 位值,必须将其解释为位字段。是的,这个命名很糟糕,因为它暗示了“离散”一词的不同含义。
当然,该传感器的实际工作方式取决于测量项目和具体实施,但对于 ECC RAM,IPMI 不会(也不能!)自行检查错误。相反,检测此错误的一种方法是观察 RAM 模块和内存控制器之间报告 ECC 错误的信号线。如果它在这些线路上检测到信号,管理接口可以生成 IPMI 错误事件,该事件与主硬件和操作系统将执行的错误处理无关。另一种方法是让内存控制器主动向管理接口报告该错误。