18.04:华硕 Prime x299、Titan V 出现内核恐慌

18.04:华硕 Prime x299、Titan V 出现内核恐慌

我正在使用 Linux 机器进行计算机视觉。当我使用 OpenCV 运行特征检测时,大约 25% 的情况下会出现内核崩溃(例如,我运行了如下程序:https://docs.opencv.org/3.0-alpha/doc/py_tutorials/py_feature2d/py_orb/py_orb.html

我尝试修复/理解该问题的方法:

  • 我尝试了 Ubuntu 17.10 和 16.04:在这些版本中,当我尝试启动生命系统时出现内核恐慌。
  • 我安装了崩溃转储和 mcelog,但没有得到有关内核崩溃的任何进一步转储信息
  • 检查了整个内存:未发现错误
  • 在没有桌面管理器的情况下开始计算(例如在 tty2 中):同样的问题
  • 在 bios 中禁用所有 cpu 功能(例如:超线程、虚拟化……):同样的问题

这是我的 lshw 输出:

sudo lshw -short
H/W path               Device     Class          Description
============================================================
                                  system         System Product Name (SKU)
/0                                bus            PRIME X299-DELUXE
/0/0                              memory         64KiB BIOS
/0/4c                             memory         System Memory
/0/4c/0                           memory         8GiB DIMM DDR4 Synchronous 3200 MHz (0.3 ns)
/0/4c/1                           memory         DIMM Synchronous [empty]
/0/4c/2                           memory         8GiB DIMM DDR4 Synchronous 3200 MHz (0.3 ns)
/0/4c/3                           memory         DIMM Synchronous [empty]
/0/54                             memory         System Memory
/0/54/0                           memory         8GiB DIMM DDR4 Synchronous 3200 MHz (0.3 ns)
/0/54/1                           memory         DIMM Synchronous [empty]
/0/54/2                           memory         8GiB DIMM DDR4 Synchronous 3200 MHz (0.3 ns)
/0/54/3                           memory         DIMM Synchronous [empty]
/0/5c                             memory         1152KiB L1 cache
/0/5d                             memory         18MiB L2 cache
/0/5e                             memory         24MiB L3 cache
/0/5f                             processor      Intel(R) Core(TM) i9-7980XE CPU @ 2.60GHz
/0/1                              memory         
/0/2                              memory         
/0/100                            bridge         Intel Corporation
/0/100/4                          generic        Sky Lake-E CBDMA Registers
/0/100/4.1                        generic        Sky Lake-E CBDMA Registers
/0/100/4.2                        generic        Sky Lake-E CBDMA Registers
/0/100/4.3                        generic        Sky Lake-E CBDMA Registers
/0/100/4.4                        generic        Sky Lake-E CBDMA Registers
/0/100/4.5                        generic        Sky Lake-E CBDMA Registers
/0/100/4.6                        generic        Sky Lake-E CBDMA Registers
/0/100/4.7                        generic        Sky Lake-E CBDMA Registers
/0/100/5                          generic        Sky Lake-E MM/Vt-d Configuration Registers
/0/100/5.2                        generic        Intel Corporation
/0/100/5.4                        generic        Intel Corporation
/0/100/8                          generic        Sky Lake-E Ubox Registers
/0/100/8.1                        generic        Sky Lake-E Ubox Registers
/0/100/8.2                        generic        Sky Lake-E Ubox Registers
/0/100/14                         bus            200 Series PCH USB 3.0 xHCI Controller
/0/100/14/0            usb1       bus            xHCI Host Controller
/0/100/14/0/6                     bus            ASM107x
/0/100/14/0/7                     input          USB Receiver
/0/100/14/0/d                     communication  Bluetooth wireless interface
/0/100/14/0/e                     input          AURA Custom Human interface
/0/100/14/1            usb2       bus            xHCI Host Controller
/0/100/14/1/2          scsi7      storage        USB Reader
/0/100/14/1/2/0.0.0    /dev/sdd   disk           STORAGE DEVICE
/0/100/14/1/2/0.0.0/0  /dev/sdd   disk           
/0/100/14/1/2/0.0.1    /dev/sde   disk           STORAGE DEVICE
/0/100/14/1/2/0.0.1/0  /dev/sde   disk           
/0/100/14/1/2/0.0.2    /dev/sdf   disk           STORAGE DEVICE
/0/100/14/1/2/0.0.2/0  /dev/sdf   disk           
/0/100/14/1/2/0.0.3    /dev/sdg   disk           STORAGE DEVICE
/0/100/14/1/2/0.0.3/0  /dev/sdg   disk           
/0/100/14/1/2/0.0.4    /dev/sdh   disk           STORAGE DEVICE
/0/100/14/1/2/0.0.4/0  /dev/sdh   disk           
/0/100/14/1/6                     bus            ASM107x
/0/100/14.2                       generic        200 Series PCH Thermal Subsystem
/0/100/16                         communication  200 Series PCH CSME HECI #1
/0/100/17                         storage        SATA Controller [RAID mode]
/0/100/1b                         bridge         200 Series PCH PCI Express Root Port #17
/0/100/1b.3                       bridge         200 Series PCH PCI Express Root Port #20
/0/100/1b.3/0          wlp2s0     network        Wil6200 802.11ad Wireless Network Adapter
/0/100/1c                         bridge         200 Series PCH PCI Express Root Port #1
/0/100/1c/0                       bus            ASMedia Technology Inc.
/0/100/1c/0/0          usb3       bus            xHCI Host Controller
/0/100/1c/0/1          usb4       bus            xHCI Host Controller
/0/100/1c.1                       bridge         200 Series PCH PCI Express Root Port #2
/0/100/1c.1/0          enp4s0     network        I211 Gigabit Network Connection
/0/100/1c.2                       bridge         200 Series PCH PCI Express Root Port #3
/0/100/1c.2/0          wlp5s0     network        QCA6174 802.11ac Wireless Network Adapter
/0/100/1c.4                       bridge         200 Series PCH PCI Express Root Port #5
/0/100/1c.4/0                     bus            ASMedia Technology Inc.
/0/100/1c.4/0/0        usb5       bus            xHCI Host Controller
/0/100/1c.4/0/1        usb6       bus            xHCI Host Controller
/0/100/1c.6                       bridge         200 Series PCH PCI Express Root Port #7
/0/100/1c.6/0                     bus            ASMedia Technology Inc.
/0/100/1c.6/0/0        usb7       bus            xHCI Host Controller
/0/100/1c.6/0/1        usb8       bus            xHCI Host Controller
/0/100/1d                         bridge         200 Series PCH PCI Express Root Port #9
/0/100/1d/0                       storage        NVMe SSD Controller SM961/PM961
/0/100/1f                         bridge         Intel Corporation
/0/100/1f.2                       memory         Memory controller
/0/100/1f.3                       multimedia     200 Series PCH HD Audio
/0/100/1f.4                       bus            200 Series PCH SMBus Controller
/0/100/1f.6            enp0s31f6  network        Ethernet Connection (2) I219-V
/0/3                              generic        Intel Corporation
/0/4                              generic        Sky Lake-E RAS Configuration Registers
/0/6                              generic        Intel Corporation
/0/7                              generic        Sky Lake-E CHA Registers
/0/8.1                            generic        Sky Lake-E CHA Registers
/0/8.2                            generic        Sky Lake-E CHA Registers
/0/8.3                            generic        Sky Lake-E CHA Registers
/0/8.4                            generic        Sky Lake-E CHA Registers
/0/8.5                            generic        Sky Lake-E CHA Registers
/0/8.6                            generic        Sky Lake-E CHA Registers
/0/8.7                            generic        Sky Lake-E CHA Registers
/0/8                              generic        Sky Lake-E CHA Registers
/0/9.1                            generic        Sky Lake-E CHA Registers
/0/9.2                            generic        Sky Lake-E CHA Registers
/0/9.3                            generic        Sky Lake-E CHA Registers
/0/9.4                            generic        Sky Lake-E CHA Registers
/0/9.5                            generic        Sky Lake-E CHA Registers
/0/9.6                            generic        Sky Lake-E CHA Registers
/0/9.7                            generic        Sky Lake-E CHA Registers
/0/9                              generic        Sky Lake-E CHA Registers
/0/a                              generic        Sky Lake-E CHA Registers
/0/e                              generic        Sky Lake-E CHA Registers
/0/e.1                            generic        Sky Lake-E CHA Registers
/0/e.2                            generic        Sky Lake-E CHA Registers
/0/e.3                            generic        Sky Lake-E CHA Registers
/0/e.4                            generic        Sky Lake-E CHA Registers
/0/e.5                            generic        Sky Lake-E CHA Registers
/0/e.6                            generic        Sky Lake-E CHA Registers
/0/e.7                            generic        Sky Lake-E CHA Registers
/0/f                              generic        Sky Lake-E CHA Registers
/0/f.1                            generic        Sky Lake-E CHA Registers
/0/f.2                            generic        Sky Lake-E CHA Registers
/0/f.3                            generic        Sky Lake-E CHA Registers
/0/f.4                            generic        Sky Lake-E CHA Registers
/0/f.5                            generic        Sky Lake-E CHA Registers
/0/f.6                            generic        Sky Lake-E CHA Registers
/0/f.7                            generic        Sky Lake-E CHA Registers
/0/10                             generic        Sky Lake-E CHA Registers
/0/10.1                           generic        Sky Lake-E CHA Registers
/0/1d                             generic        Sky Lake-E CHA Registers
/0/1d.1                           generic        Sky Lake-E CHA Registers
/0/1d.2                           generic        Sky Lake-E CHA Registers
/0/1d.3                           generic        Sky Lake-E CHA Registers
/0/1e                             generic        Sky Lake-E PCU Registers
/0/1e.1                           generic        Sky Lake-E PCU Registers
/0/1e.2                           generic        Sky Lake-E PCU Registers
/0/1e.3                           generic        Sky Lake-E PCU Registers
/0/1e.4                           generic        Sky Lake-E PCU Registers
/0/1e.5                           generic        Sky Lake-E PCU Registers
/0/1e.6                           generic        Sky Lake-E PCU Registers
/0/101                            bridge         Sky Lake-E PCI Express Root Port 1A
/0/101/0                          display        GV100
/0/101/0.1                        multimedia     NVIDIA Corporation
/0/11                             generic        Intel Corporation
/0/13                             generic        Sky Lake-E RAS Configuration Registers
/0/14                             generic        Intel Corporation
/0/18                             generic        Intel Corporation
/0/19                             generic        Intel Corporation
/0/1a                             generic        Intel Corporation
/0/1b                             generic        Intel Corporation
/0/a.2                            generic        Intel Corporation
/0/a.3                            generic        Intel Corporation
/0/a.4                            generic        Intel Corporation
/0/a.5                            generic        Intel Corporation
/0/a.6                            generic        Intel Corporation
/0/a.7                            generic        Intel Corporation
/0/b                              generic        Intel Corporation
/0/b.1                            generic        Intel Corporation
/0/b.2                            generic        Intel Corporation
/0/b.3                            generic        Intel Corporation
/0/c                              generic        Intel Corporation
/0/c.1                            generic        Intel Corporation
/0/c.2                            generic        Intel Corporation
/0/c.3                            generic        Intel Corporation
/0/c.4                            generic        Intel Corporation
/0/c.5                            generic        Intel Corporation
/0/c.6                            generic        Intel Corporation
/0/c.7                            generic        Intel Corporation
/0/d                              generic        Intel Corporation
/0/d.1                            generic        Intel Corporation
/0/d.2                            generic        Intel Corporation
/0/d.3                            generic        Intel Corporation
/0/5                              generic        Intel Corporation
/0/5.2                            generic        Sky Lake-E RAS Configuration Registers
/0/5.4                            generic        Intel Corporation
/0/12                             generic        Sky Lake-E M3KTI Registers
/0/12.1                           generic        Sky Lake-E M3KTI Registers
/0/12.2                           generic        Sky Lake-E M3KTI Registers
/0/15                             generic        Sky Lake-E M2PCI Registers
/0/16                             generic        Sky Lake-E M2PCI Registers
/0/16.4                           generic        Sky Lake-E M2PCI Registers
/0/17                             generic        Sky Lake-E M2PCI Registers
/0/1c                  scsi2      storage        
/0/1c/0.0.0            /dev/sda   disk           1TB Samsung SSD 860
/0/1c/0.0.0/1          /dev/sda1  volume         15MiB reserved partition
/0/1c/0.0.0/2          /dev/sda2  volume         931GiB Windows NTFS volume
/0/1f                  scsi3      storage        
/0/1f/0.0.0            /dev/sdb   disk           1TB Samsung SSD 860
/0/1f/0.0.0/1          /dev/sdb1  volume         15MiB reserved partition
/0/1f/0.0.0/2          /dev/sdb2  volume         931GiB Windows NTFS volume
/0/20                  scsi4      storage        
/0/20/0.0.0            /dev/sdc   disk           512GB Samsung SSD 850
/0/20/0.0.0/1          /dev/sdc1  volume         456GiB EXT4 volume
/0/20/0.0.0/2          /dev/sdc2  volume         20GiB Linux swap volume
/1                                power          To Be Filled By O.E.M.`enter 

这是内核崩溃的图片

有人遇到过华硕 Prime x299、Titan V 的相同问题吗?我该如何修复此问题/找到不兼容的硬件设备?

提前致谢

答案1

您禁用了 Turbo Boost 吗?似乎很多人在使用 Sky Lake CPU 和 X299 时遇到了问题,一个潜在的解决方案是降低 CPU 时钟速度或增加 CPU 电压。

来自英特尔官方论坛的讨论这里

英特尔实际上似乎并未指定* Skylake X 芯片的 AVX/AVX512 速度。这可能就是主板制造商似乎完全搞错的原因。不过在实践中,AVX 的偏移量为 -4,AVX512 的偏移量为 -7 似乎适合常规速度。因此,您可以尝试将它们输入到 BIOS 中。如果仍然失败,您可以尝试进一步降低它们。但如果这仍然不起作用,那么可能还存在其他问题。

另一个这里

所以我把 CPU 电压增加到 1200(默认值为 0),然后让模式为自适应(无论如何都是默认值)。从那时起,BSOD 就停止了!所以这就像 CPU 默认没有足够的电压来加速。所以你需要给它们更多的电压,否则它们根本就不工作!

同样,MSI 论坛上的一位用户发现增加 CPU 电压可以成功这里

我在 MSI X299M Gaming Carbon AC 上配备了 i7 7820X,运行默认 BIOS 设置,BIOS v1.00。

Ubuntu 17.04 amd64 会在启动过程中崩溃,Linux Mint 18.2 也是如此。有趣的是,Ubuntu 17.10 beta2 以及 Debian 9.2 启动没有问题,但两者都非常不稳定(会随机锁定并重新启动)。Windows 10 64 位大部分情况下运行良好,甚至进行 CPU 压力测试也是如此,但我注意到,如果我尝试 AIDA64 的指令延迟测试,它会出现蓝屏(我认为它围绕着 AVX512 指令,所以我有怀疑,但还没有费心去确认)。Memtest86+ 没有检测到任何问题,所以很可能不是 RAM 的问题。

我从未测试过禁用 CPU 核心,但确实发现将 CPU 电压提高到 1.1V 会导致所有这些问题消失(所有操作系统启动,没有随机冻结等)。还升级到 BIOS v1.30,默认 BIOS 设置没有出现任何问题,因此推测更新后的 BIOS 做了一些修复电源传输或类似问题的工作。

某些主板上的默认 BIOS 配置似乎没有为 CPU 提供足够的电力,导致行为不稳定。这也可能是导致您出现问题的原因。

就我个人而言,在 CPU 上运行 PyTorch 操作时,我遇到了与图像中完全相同的机器检查错误;迄今为止,禁用 turbo boost 已使系统稳定。我尚未测试其他分辨率策略。

相关内容