APEI 通用硬件错误:ATTO SAS HBA 出现 PCIe 错误

APEI 通用硬件错误:ATTO SAS HBA 出现 PCIe 错误

最近,我们将远程服务器升级为具有双 CPU 的新型 Dell PowerEdge T630(因此所有 PCIe 插槽均处于活动状态)。在我们添加通过新 ATTO H644 SAS HBA 连接的 IBM LTO5 磁带驱动器之前,它已经正常运行了几周。

在安装该卡之前,系统可以正常启动并保持稳定。安装卡后,POST 就可以了,当 Linux 内核启动时,我们会得到:

megasas: INIT adapter done
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: APEI generic hardware error status
{1}[Hardware Error]: severity: 1, fatal
{1}[Hardware Error]: section: 0, severity: 1, fatal
{1}[Hardware Error]: flags: 0x01
{1}[Hardware Error]: primary
{1}[Hardware Error]: section_type: PCIe error
{1}[Hardware Error]: port_type: 4, root port
{1}[Hardware Error]: version: 1.16
{1}[Hardware Error]: command: 0x0547, status: 0x4010
{1}[Hardware Error]: device_id: 0000:00:1c.4
{1}[Hardware Error]: slot: 2
{1}[Hardware Error]: secondary_bus: 0x0b
{1}[Hardware Error]: vendor_id: 0x8086, device_id: 0x8d18
{1}[Hardware Error]: class_code: 000406
{1}[Hardware Error]: bridge: secondary_status: 0x2000, control: 0x0003
{1}[Hardware Error]: aer_status: 0x00000000, aer_mask: 0x00000000
{1}[Hardware Error]: aer_layer=Transaction Layer, aer_agent=Receiver ID
{1}[Hardware Error]: are_uncor_severity: 0x00000000
Kernel panic - not syncing: Fatal hardware error!
Rebooting in 30 seconds..

我们正在运行内核 3.5.4 x86_64

我已经在服务器上的多个插槽中尝试过该卡,没有任何不同的反应。我也尝试过启动 Clonezilla 最新的 live CD,结果相同。

我正在尝试诊断问题出在哪里......供应商 ID 是针对 Intel 的,设备 ID 似乎是针对 PCIe 桥接器(pcieport 内核模块)的,这让我觉得主板上的某些东西可能不喜欢该卡。但 BIOS 开机自检屏幕正常,没有报告任何错误。板载戴尔基板管理控制器也不会报告任何硬件错误。

服务器是远程的,所以目前我只是在 BIOS 中禁用了 PCIe 插槽。

我们有一张 ATTO H608 卡,根据 ATTO 支持,除了内部和外部 SAS 端口数量不同外,该卡是相同的(644 = 6Gbps,4 个外部 SAS,4 个内部 SAS;608 = 6Gbps,0 个外部 SAS,8 个内部 SAS) 。在我们的一台较旧的 Dell PowerEdge 2850 中,H608 在相同的 3.5.4 内核上运行良好。

我没有另一台 T630 可供测试,但我希望在办公室得到一台 T620,我可以在上面尝试 H608 卡。

我现在正在抓住救命稻草......试图弄清楚这是卡问题,戴尔问题还是内核问题......任何意见都会受到赞赏。

谢谢。 -干杯,彼得。

答案1

RH6 内核版本 2.6.32-504 也存在类似问题。我们已回滚到 2.6.32-431,它似乎解决了 ATTO H680 上的问题。对于您的 3.5.4 内核来说,这可能是一个荒谬的解决方案,但我认为它可能会为您指明正确的方向。

在我的研究中,我发现本文(在 ATTO 的网站上),其中写道:

ATTO 6Gb ESAS HBA 和 Linux 内核 2.6.33

在 Linux 内核 2.6.33 及更高版本中,现在在名为 的驱动程序中内置了对 PMC 8001 芯片的支持pm8001.ko。如果存在,该驱动程序将自动为 ATTO 6GB HBA 加载,并且必须先删除 (" rmmod pm8001"),然后才能加载我们的驱动程序。

截至 2010 年 5 月,当前使用该内核的唯一 Linux 发行版是 Fedora Core 12。如果您想永久删除 PMC 驱动程序,您可以尝试删除内置驱动程序,该驱动程序可能位于: /lib/modules/2.6.33-default/kernel/drivers/scsi/pm8001/pm8001.ko

注意:此位置可能不适用于使用此内核版本的所有 Linux 发行版。

此外,您可能需要安装其驱动程序和配置工具来更新卡上的固件(如果适用)。

相关内容