我正在使用 Linux 机器进行计算机视觉。当我使用 OpenCV 运行特征检测时,大约 25% 的情况下会出现内核崩溃(例如,我运行了如下程序:https://docs.opencv.org/3.0-alpha/doc/py_tutorials/py_feature2d/py_orb/py_orb.html)
我尝试修复/理解该问题的方法:
- 我尝试了 Ubuntu 17.10 和 16.04:在这些版本中,当我尝试启动生命系统时出现内核恐慌。
- 我安装了崩溃转储和 mcelog,但没有得到有关内核崩溃的任何进一步转储信息
- 检查了整个内存:未发现错误
- 在没有桌面管理器的情况下开始计算(例如在 tty2 中):同样的问题
- 在 bios 中禁用所有 cpu 功能(例如:超线程、虚拟化……):同样的问题
这是我的 lshw 输出:
sudo lshw -short
H/W path Device Class Description
============================================================
system System Product Name (SKU)
/0 bus PRIME X299-DELUXE
/0/0 memory 64KiB BIOS
/0/4c memory System Memory
/0/4c/0 memory 8GiB DIMM DDR4 Synchronous 3200 MHz (0.3 ns)
/0/4c/1 memory DIMM Synchronous [empty]
/0/4c/2 memory 8GiB DIMM DDR4 Synchronous 3200 MHz (0.3 ns)
/0/4c/3 memory DIMM Synchronous [empty]
/0/54 memory System Memory
/0/54/0 memory 8GiB DIMM DDR4 Synchronous 3200 MHz (0.3 ns)
/0/54/1 memory DIMM Synchronous [empty]
/0/54/2 memory 8GiB DIMM DDR4 Synchronous 3200 MHz (0.3 ns)
/0/54/3 memory DIMM Synchronous [empty]
/0/5c memory 1152KiB L1 cache
/0/5d memory 18MiB L2 cache
/0/5e memory 24MiB L3 cache
/0/5f processor Intel(R) Core(TM) i9-7980XE CPU @ 2.60GHz
/0/1 memory
/0/2 memory
/0/100 bridge Intel Corporation
/0/100/4 generic Sky Lake-E CBDMA Registers
/0/100/4.1 generic Sky Lake-E CBDMA Registers
/0/100/4.2 generic Sky Lake-E CBDMA Registers
/0/100/4.3 generic Sky Lake-E CBDMA Registers
/0/100/4.4 generic Sky Lake-E CBDMA Registers
/0/100/4.5 generic Sky Lake-E CBDMA Registers
/0/100/4.6 generic Sky Lake-E CBDMA Registers
/0/100/4.7 generic Sky Lake-E CBDMA Registers
/0/100/5 generic Sky Lake-E MM/Vt-d Configuration Registers
/0/100/5.2 generic Intel Corporation
/0/100/5.4 generic Intel Corporation
/0/100/8 generic Sky Lake-E Ubox Registers
/0/100/8.1 generic Sky Lake-E Ubox Registers
/0/100/8.2 generic Sky Lake-E Ubox Registers
/0/100/14 bus 200 Series PCH USB 3.0 xHCI Controller
/0/100/14/0 usb1 bus xHCI Host Controller
/0/100/14/0/6 bus ASM107x
/0/100/14/0/7 input USB Receiver
/0/100/14/0/d communication Bluetooth wireless interface
/0/100/14/0/e input AURA Custom Human interface
/0/100/14/1 usb2 bus xHCI Host Controller
/0/100/14/1/2 scsi7 storage USB Reader
/0/100/14/1/2/0.0.0 /dev/sdd disk STORAGE DEVICE
/0/100/14/1/2/0.0.0/0 /dev/sdd disk
/0/100/14/1/2/0.0.1 /dev/sde disk STORAGE DEVICE
/0/100/14/1/2/0.0.1/0 /dev/sde disk
/0/100/14/1/2/0.0.2 /dev/sdf disk STORAGE DEVICE
/0/100/14/1/2/0.0.2/0 /dev/sdf disk
/0/100/14/1/2/0.0.3 /dev/sdg disk STORAGE DEVICE
/0/100/14/1/2/0.0.3/0 /dev/sdg disk
/0/100/14/1/2/0.0.4 /dev/sdh disk STORAGE DEVICE
/0/100/14/1/2/0.0.4/0 /dev/sdh disk
/0/100/14/1/6 bus ASM107x
/0/100/14.2 generic 200 Series PCH Thermal Subsystem
/0/100/16 communication 200 Series PCH CSME HECI #1
/0/100/17 storage SATA Controller [RAID mode]
/0/100/1b bridge 200 Series PCH PCI Express Root Port #17
/0/100/1b.3 bridge 200 Series PCH PCI Express Root Port #20
/0/100/1b.3/0 wlp2s0 network Wil6200 802.11ad Wireless Network Adapter
/0/100/1c bridge 200 Series PCH PCI Express Root Port #1
/0/100/1c/0 bus ASMedia Technology Inc.
/0/100/1c/0/0 usb3 bus xHCI Host Controller
/0/100/1c/0/1 usb4 bus xHCI Host Controller
/0/100/1c.1 bridge 200 Series PCH PCI Express Root Port #2
/0/100/1c.1/0 enp4s0 network I211 Gigabit Network Connection
/0/100/1c.2 bridge 200 Series PCH PCI Express Root Port #3
/0/100/1c.2/0 wlp5s0 network QCA6174 802.11ac Wireless Network Adapter
/0/100/1c.4 bridge 200 Series PCH PCI Express Root Port #5
/0/100/1c.4/0 bus ASMedia Technology Inc.
/0/100/1c.4/0/0 usb5 bus xHCI Host Controller
/0/100/1c.4/0/1 usb6 bus xHCI Host Controller
/0/100/1c.6 bridge 200 Series PCH PCI Express Root Port #7
/0/100/1c.6/0 bus ASMedia Technology Inc.
/0/100/1c.6/0/0 usb7 bus xHCI Host Controller
/0/100/1c.6/0/1 usb8 bus xHCI Host Controller
/0/100/1d bridge 200 Series PCH PCI Express Root Port #9
/0/100/1d/0 storage NVMe SSD Controller SM961/PM961
/0/100/1f bridge Intel Corporation
/0/100/1f.2 memory Memory controller
/0/100/1f.3 multimedia 200 Series PCH HD Audio
/0/100/1f.4 bus 200 Series PCH SMBus Controller
/0/100/1f.6 enp0s31f6 network Ethernet Connection (2) I219-V
/0/3 generic Intel Corporation
/0/4 generic Sky Lake-E RAS Configuration Registers
/0/6 generic Intel Corporation
/0/7 generic Sky Lake-E CHA Registers
/0/8.1 generic Sky Lake-E CHA Registers
/0/8.2 generic Sky Lake-E CHA Registers
/0/8.3 generic Sky Lake-E CHA Registers
/0/8.4 generic Sky Lake-E CHA Registers
/0/8.5 generic Sky Lake-E CHA Registers
/0/8.6 generic Sky Lake-E CHA Registers
/0/8.7 generic Sky Lake-E CHA Registers
/0/8 generic Sky Lake-E CHA Registers
/0/9.1 generic Sky Lake-E CHA Registers
/0/9.2 generic Sky Lake-E CHA Registers
/0/9.3 generic Sky Lake-E CHA Registers
/0/9.4 generic Sky Lake-E CHA Registers
/0/9.5 generic Sky Lake-E CHA Registers
/0/9.6 generic Sky Lake-E CHA Registers
/0/9.7 generic Sky Lake-E CHA Registers
/0/9 generic Sky Lake-E CHA Registers
/0/a generic Sky Lake-E CHA Registers
/0/e generic Sky Lake-E CHA Registers
/0/e.1 generic Sky Lake-E CHA Registers
/0/e.2 generic Sky Lake-E CHA Registers
/0/e.3 generic Sky Lake-E CHA Registers
/0/e.4 generic Sky Lake-E CHA Registers
/0/e.5 generic Sky Lake-E CHA Registers
/0/e.6 generic Sky Lake-E CHA Registers
/0/e.7 generic Sky Lake-E CHA Registers
/0/f generic Sky Lake-E CHA Registers
/0/f.1 generic Sky Lake-E CHA Registers
/0/f.2 generic Sky Lake-E CHA Registers
/0/f.3 generic Sky Lake-E CHA Registers
/0/f.4 generic Sky Lake-E CHA Registers
/0/f.5 generic Sky Lake-E CHA Registers
/0/f.6 generic Sky Lake-E CHA Registers
/0/f.7 generic Sky Lake-E CHA Registers
/0/10 generic Sky Lake-E CHA Registers
/0/10.1 generic Sky Lake-E CHA Registers
/0/1d generic Sky Lake-E CHA Registers
/0/1d.1 generic Sky Lake-E CHA Registers
/0/1d.2 generic Sky Lake-E CHA Registers
/0/1d.3 generic Sky Lake-E CHA Registers
/0/1e generic Sky Lake-E PCU Registers
/0/1e.1 generic Sky Lake-E PCU Registers
/0/1e.2 generic Sky Lake-E PCU Registers
/0/1e.3 generic Sky Lake-E PCU Registers
/0/1e.4 generic Sky Lake-E PCU Registers
/0/1e.5 generic Sky Lake-E PCU Registers
/0/1e.6 generic Sky Lake-E PCU Registers
/0/101 bridge Sky Lake-E PCI Express Root Port 1A
/0/101/0 display GV100
/0/101/0.1 multimedia NVIDIA Corporation
/0/11 generic Intel Corporation
/0/13 generic Sky Lake-E RAS Configuration Registers
/0/14 generic Intel Corporation
/0/18 generic Intel Corporation
/0/19 generic Intel Corporation
/0/1a generic Intel Corporation
/0/1b generic Intel Corporation
/0/a.2 generic Intel Corporation
/0/a.3 generic Intel Corporation
/0/a.4 generic Intel Corporation
/0/a.5 generic Intel Corporation
/0/a.6 generic Intel Corporation
/0/a.7 generic Intel Corporation
/0/b generic Intel Corporation
/0/b.1 generic Intel Corporation
/0/b.2 generic Intel Corporation
/0/b.3 generic Intel Corporation
/0/c generic Intel Corporation
/0/c.1 generic Intel Corporation
/0/c.2 generic Intel Corporation
/0/c.3 generic Intel Corporation
/0/c.4 generic Intel Corporation
/0/c.5 generic Intel Corporation
/0/c.6 generic Intel Corporation
/0/c.7 generic Intel Corporation
/0/d generic Intel Corporation
/0/d.1 generic Intel Corporation
/0/d.2 generic Intel Corporation
/0/d.3 generic Intel Corporation
/0/5 generic Intel Corporation
/0/5.2 generic Sky Lake-E RAS Configuration Registers
/0/5.4 generic Intel Corporation
/0/12 generic Sky Lake-E M3KTI Registers
/0/12.1 generic Sky Lake-E M3KTI Registers
/0/12.2 generic Sky Lake-E M3KTI Registers
/0/15 generic Sky Lake-E M2PCI Registers
/0/16 generic Sky Lake-E M2PCI Registers
/0/16.4 generic Sky Lake-E M2PCI Registers
/0/17 generic Sky Lake-E M2PCI Registers
/0/1c scsi2 storage
/0/1c/0.0.0 /dev/sda disk 1TB Samsung SSD 860
/0/1c/0.0.0/1 /dev/sda1 volume 15MiB reserved partition
/0/1c/0.0.0/2 /dev/sda2 volume 931GiB Windows NTFS volume
/0/1f scsi3 storage
/0/1f/0.0.0 /dev/sdb disk 1TB Samsung SSD 860
/0/1f/0.0.0/1 /dev/sdb1 volume 15MiB reserved partition
/0/1f/0.0.0/2 /dev/sdb2 volume 931GiB Windows NTFS volume
/0/20 scsi4 storage
/0/20/0.0.0 /dev/sdc disk 512GB Samsung SSD 850
/0/20/0.0.0/1 /dev/sdc1 volume 456GiB EXT4 volume
/0/20/0.0.0/2 /dev/sdc2 volume 20GiB Linux swap volume
/1 power To Be Filled By O.E.M.`enter
有人遇到过华硕 Prime x299、Titan V 的相同问题吗?我该如何修复此问题/找到不兼容的硬件设备?
提前致谢
答案1
您禁用了 Turbo Boost 吗?似乎很多人在使用 Sky Lake CPU 和 X299 时遇到了问题,一个潜在的解决方案是降低 CPU 时钟速度或增加 CPU 电压。
来自英特尔官方论坛的讨论这里:
英特尔实际上似乎并未指定* Skylake X 芯片的 AVX/AVX512 速度。这可能就是主板制造商似乎完全搞错的原因。不过在实践中,AVX 的偏移量为 -4,AVX512 的偏移量为 -7 似乎适合常规速度。因此,您可以尝试将它们输入到 BIOS 中。如果仍然失败,您可以尝试进一步降低它们。但如果这仍然不起作用,那么可能还存在其他问题。
另一个这里:
所以我把 CPU 电压增加到 1200(默认值为 0),然后让模式为自适应(无论如何都是默认值)。从那时起,BSOD 就停止了!所以这就像 CPU 默认没有足够的电压来加速。所以你需要给它们更多的电压,否则它们根本就不工作!
同样,MSI 论坛上的一位用户发现增加 CPU 电压可以成功这里:
我在 MSI X299M Gaming Carbon AC 上配备了 i7 7820X,运行默认 BIOS 设置,BIOS v1.00。
Ubuntu 17.04 amd64 会在启动过程中崩溃,Linux Mint 18.2 也是如此。有趣的是,Ubuntu 17.10 beta2 以及 Debian 9.2 启动没有问题,但两者都非常不稳定(会随机锁定并重新启动)。Windows 10 64 位大部分情况下运行良好,甚至进行 CPU 压力测试也是如此,但我注意到,如果我尝试 AIDA64 的指令延迟测试,它会出现蓝屏(我认为它围绕着 AVX512 指令,所以我有怀疑,但还没有费心去确认)。Memtest86+ 没有检测到任何问题,所以很可能不是 RAM 的问题。
我从未测试过禁用 CPU 核心,但确实发现将 CPU 电压提高到 1.1V 会导致所有这些问题消失(所有操作系统启动,没有随机冻结等)。还升级到 BIOS v1.30,默认 BIOS 设置没有出现任何问题,因此推测更新后的 BIOS 做了一些修复电源传输或类似问题的工作。
某些主板上的默认 BIOS 配置似乎没有为 CPU 提供足够的电力,导致行为不稳定。这也可能是导致您出现问题的原因。
就我个人而言,在 CPU 上运行 PyTorch 操作时,我遇到了与图像中完全相同的机器检查错误;迄今为止,禁用 turbo boost 已使系统稳定。我尚未测试其他分辨率策略。