我有以下具有 64 个核心的工作站配置:
- CPU:4x AMD Athlon 6378 2.4GHz
- 内存:128GB
- 主板:Supermicro H8QGI-FO
- SSD:2 x 512GB Samsung,带软件 RAID-0 设置
我正在运行 Ubuntu Server 14.04。我尝试的所有 Ubuntu Server 内核(3.13.0-32 至 3.13.0-45)都出现以下错误。我在 20 多个处理器上运行分子动力学模拟时,机器的速度明显变慢,直至冻结(错误消息如下/var/log/kern.log
)。运行程序的一个实例时,它运行良好……模拟包没有问题,我在 64 个副本的不同服务器上运行它,它运行良好。我还在我的计算机上从实时 CD 启动了 CentOS 7 和 Ubuntu 12.04,并运行了 64 个代码实例,它从未变慢/冻结。带有内核 13.0.-32 的 Ubuntu 12.04 从实时 CD 启动时运行软件很好,但在我的 Ubuntu 14.04 服务器安装中总是冻结。这可能是由内核中的某些加载模块引起的吗?我尝试过 memtest(没有问题),也尝试过运行 64 个 CPUburn 副本来对计算机进行压力测试,一切正常,所以这似乎是一个奇怪的错误。
6月12日 10:40:15 vochomurka 内核:[233.746081] 警告:CPU:59 PID:4337 位于 /build/buildd/linux-3.13.0/kernel/watchdog.c:245 watchdog_overflow_callback+0x9c/0xd0() 6月12日 10:40:15 vochomurka 内核:[233.746084] 看门狗检测到 CPU 59 上发生硬锁定 6月12日 10:40:15 vochomurka 内核:[233.746086] 链接的模块:rfcomm bnep 蓝牙 binfmt_misc kvm_amd kvm crct10dif_pclmul crc32_pclmul ghash_clmulni_intel aesni_intel aes_x86_64 lrw gf128mul glue_helper ablk_helper cryptd serio_raw amd64_edac_mod edac_core fam15h_power k10temp edac_mce_amd nvidia(POX) sp5100_tco i2c_piix4 drm shpchp joydev mac_hid parport_pc ppdev lp parport pata_acpi hid_generic usbhid hid raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq raid1 raid0 多路径 igb 线性 i2c_algo_bit psmouse dca ahci ptp pata_atiixp libahci pps_core 6月12日 10:40:15 vochomurka 内核:[233.746140] CPU:59 PID:4337 通信:xargs 污染:P OX 3.13.0-45-generic #74-Ubuntu 6月12日 10:40:15 vochomurka 内核:[233.746143] 硬件名称:Supermicro H8QG6/H8QG6,BIOS 3.5 12/16/2013 6月12日 10:40:15 vochomurka 内核:[233.746145] 0000000000000009 ffff882066d65c38 ffffffff81720eb6 ffff882066d65c80 6月12日 10:40:15 vochomurka 内核:[233.746174] ffff882066d65c70 ffffffff810677cd ffff88203a840000 00000000000000000 6月12日 10:40:15 vochomurka 内核:[233.746187] ffff882066d65d88 0000000000000000 ffff882066d65ef8 ffff882066d65cd0 6月12日 10:40:15 vochomurka 内核:[233.746201] 调用跟踪: 6月12日 10:40:15 vochomurka 内核:[233.746203] [] dump_stack+0x45/0x56 6月12日 10:40:15 vochomurka 内核:[233.746220] [] warn_slowpath_common+0x7d/0xa0 6月12日 10:40:15 vochomurka 内核:[233.746226] [] warn_slowpath_fmt+0x4c/0x50 6月12日 10:40:15 vochomurka 内核:[ 233.746233] [] ? restart_watchdog_hrtimer+0x50/0x50 6月12日 10:40:15 vochomurka 内核:[ 233.746239] [] watchdog_overflow_callback+0x9c/0xd0 6月12日 10:40:15 vochomurka 内核:[ 233.746246] [] __perf_event_overflow+0x8e/0x240 6月12日 10:40:15 vochomurka 内核:[ 233.746254] [] ? ioremap_page_range+0x241/0x320 6月12日 10:40:15 vochomurka 内核:[ 233.746260] [] perf_event_overflow+0x14/0x20 6月12日 10:40:15 vochomurka 内核:[233.746267] [] x86_pmu_handle_irq+0x144/0x190 6月12日 10:40:15 vochomurka 内核:[ 233.746275] [] ? unmap_kernel_range_noflush+0x11/0x20 6月12日 10:40:15 vochomurka 内核:[ 233.746282] [] perf_event_nmi_handler+0x2b/0x50 6月12日 10:40:15 vochomurka 内核:[ 233.746288] [] nmi_handle.isra.3+0x88/0x180 6月12日 10:40:15 vochomurka 内核:[ 233.746294] [] do_nmi+0x169/0x340 6月12日 10:40:15 vochomurka 内核:[ 233.746299] [] end_repeat_nmi+0x1e/0x2e 6月12日 10:40:15 vochomurka 内核:[ 233.746307] [] ? __write_lock_failed+0x13/0x20 6月12日 10:40:15 vochomurka 内核:[ 233.746312] [] ? __write_lock_failed+0x13/0x20 6月12日 10:40:15 vochomurka 内核:[ 233.746317] [] ? __write_lock_failed+0x13/0x20 6月12日 10:40:15 vochomurka 内核:[ 233.746319] > [] _raw_write_lock_irq+0x1e/0x20 6月12日 10:40:15 vochomurka 内核:[233.746330] [] do_exit+0x5a9/0xa50 6月12日 10:40:15 vochomurka 内核:[ 233.746336] [] do_group_exit+0x3f/0xa0 6月12日 10:40:15 vochomurka 内核:[233.746341] [] SyS_exit_group+0x14/0x20 6月12日 10:40:15 vochomurka 内核:[233.746348] [] system_call_fastpath+0x1a/0x1f 6月12日 10:40:15 vochomurka 内核:[233.746350] ---[结束跟踪 04f618100e4ac70c]--- 6月12日 10:40:29 vochomurka 内核:[251.810867] pbs_sched[2739]: 在 0 ip 00007fc20f1927fc sp 00007fff726e1d50 处发生段错误,libtorque.so.2.0.0[7fc20f180000+2c000] 中出现错误 4 6月12日 10:41:25 vochomurka 内核:[312.822760] ------------[从此处剪切]------------ 6月12日 10:41:25 vochomurka 内核:[312.822775] 警告:CPU:59 PID:4360 位于 /build/buildd/linux-3.13.0/kernel/watchdog.c:245 watchdog_overflow_callback+0x9c/0xd0() 6月12日 10:41:25 vochomurka 内核:[312.822777] 看门狗检测到 CPU 59 上出现硬锁定 6月12日 10:41:25 vochomurka 内核:[312.822779] 链接的模块:rfcomm bnep 蓝牙 binfmt_misc kvm_amd kvm crct10dif_pclmul crc32_pclmul ghash_clmulni_intel aesni_intel aes_x86_64 lrw gf128mul glue_helper ablk_helper cryptd serio_raw amd64_edac_mod edac_core fam15h_power k10temp edac_mce_amd nvidia(POX) sp5100_tco i2c_piix4 drm shpchp joydev mac_hid parport_pc ppdev lp parport pata_acpi hid_generic usbhid hid raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq raid1 raid0 多路径 igb 线性 i2c_algo_bit psmouse dca ahci ptp pata_atiixp libahci pps_core 6月12日 10:41:25 vochomurka 内核:[312.822832] CPU:59 PID:4360 通信:pbs_iff 污染:PW OX 3.13.0-45-generic #74-Ubuntu 6月12日 10:41:25 vochomurka 内核:[312.822834] 硬件名称:Supermicro H8QG6/H8QG6,BIOS 3.5 12/16/2013 6月12日 10:41:25 vochomurka 内核:[312.822837] 0000000000000009 ffff882066d65c38 ffffffff81720eb6 ffff882066d65c80 6月12日 10:41:25 vochomurka 内核:[312.822870] ffff882066d65c70 ffffffff810677cd ffff88203a840000 00000000000000000 6月12日 10:41:25 vochomurka 内核:[312.822893] ffff882066d65d88 0000000000000000 ffff882066d65ef8 ffff882066d65cd0 6月12日 10:41:25 vochomurka 内核:[312.822911] 调用跟踪: 6月12日 10:41:25 vochomurka 内核:[312.822913] [] dump_stack+0x45/0x56 6月12日 10:41:25 vochomurka 内核:[312.822931] [] warn_slowpath_common+0x7d/0xa0 6月12日 10:41:25 vochomurka 内核:[312.822936] [] warn_slowpath_fmt+0x4c/0x50 6月12日 10:41:25 vochomurka 内核:[ 312.822943] [] ? restart_watchdog_hrtimer+0x50/0x50 6月12日 10:41:25 vochomurka 内核:[312.822949] [] watchdog_overflow_callback+0x9c/0xd0 6月12日 10:41:25 vochomurka 内核:[312.822956] [] __perf_event_overflow+0x8e/0x240 6月12日 10:41:25 vochomurka 内核:[ 312.822964] [] ? ioremap_page_range+0x241/0x320 6月12日 10:41:25 vochomurka 内核:[312.822970] [] perf_event_overflow+0x14/0x20 6月12日 10:41:25 vochomurka 内核:[312.822978] [] x86_pmu_handle_irq+0x144/0x190 6月12日 10:41:25 vochomurka 内核:[ 312.822985] [] ? unmap_kernel_range_noflush+0x11/0x20 6月12日 10:41:25 vochomurka 内核:[312.822993] [] perf_event_nmi_handler+0x2b/0x50 6月12日 10:41:25 vochomurka 内核:[312.822998] [] nmi_handle.isra.3+0x88/0x180 6月12日 10:41:25 vochomurka 内核:[312.823004] [] do_nmi+0xd0/0x340 6月12日 10:41:25 vochomurka 内核:[312.823009] [] end_repeat_nmi+0x1e/0x2e 6月12日 10:41:25 vochomurka 内核:[ 312.823017] [] ? kzfree+0x2d/0x30 6月12日 10:41:25 vochomurka 内核:[ 312.823024] [] ? __write_lock_failed+0x13/0x20 6月12日 10:41:25 vochomurka 内核:[312.823030] [] ? __write_lock_failed+0x13/0x20 6月12日 10:41:25 vochomurka 内核:[ 312.823035] [] ? __write_lock_failed+0x13/0x20 6月12日 10:41:25 vochomurka 内核:[ 312.823037] > [] _raw_write_lock_irq+0x1e/0x20 6月12日 10:41:25 vochomurka 内核:[312.823048] [] do_exit+0x30b/0xa50 6月12日 10:41:25 vochomurka 内核:[312.823053] [] do_group_exit+0x3f/0xa0 6月12日 10:41:25 vochomurka 内核:[312.823059] [] SyS_exit_group+0x14/0x20 6月12日 10:41:25 vochomurka 内核:[312.823065] [] system_call_fastpath+0x1a/0x1f 6月12日 10:41:25 vochomurka 内核:[312.823067] ---[结束跟踪 04f618100e4ac70d]--- 6月12日 10:41:25 vochomurka 内核:[312.823071] perf 样本太长 (4775 > 2500),将 kernel.perf_event_max_sample_rate 降低至 50000