Threadripper 1950x 随机系统挂起 - 我该如何追踪问题?

Threadripper 1950x 随机系统挂起 - 我该如何追踪问题?

简介:我犯了一个错误,买了下一个新产品(这是我一生中第一次),这使我成为了一名付费测试员(不幸的是)。我已经在网上搜索了所有信息。

我的问题如下:当我在任何其他应用程序上使用浏览器时,这些应用程序都会出现短暂的冻结(1-5 秒,有时 10-15 秒)

我的系统配置如下:

  • Threadripper 1950x
  • MSI X399 游戏专业版
  • 金士顿 2x16GB 2133MHz 内存
  • NVIDIA 1080 ti

我尝试过的事情:

  • 已更新至 4.17 内核(行为无差异)
  • 添加pcie_aspm=off以解决 PCIe 总线错误PCI 总线错误
  • 跑了压力测试 ng
  • 运行内存测试
  • 交换式 SSD
  • 测试每个单独的 RAM 模块
  • 重新安装了 ubuntu
  • 尝试了不同的 PSU
  • 尝试了带/不带 CUDA 的不同 NVIDA 驱动程序
  • 通过了 syslog、kern.log、desmeg(我能找到的唯一有趣的东西):

Jun 23 04:28:33 vanila kernel: [ 19.244589] IPv6: ADDRCONF(NETDEV_CHANGE): veth18d1bdd: link becomes ready Jun 23 04:28:33 vanila kernel: [ 19.244631] br-1dbd07f6e628: port 3(veth18d1bdd) entered blocking state Jun 23 04:28:33 vanila kernel: [ 19.244633] br-1dbd07f6e628: port 3(veth18d1bdd) entered forwarding state Jun 23 04:28:33 vanila NetworkManager[1405]: <info> [1529724513.8132] devices removed (path: /sys/devices/virtual/net/veth249d03f, iface: veth249d03f) Jun 23 04:28:33 vanila NetworkManager[1405]: <info> [1529724513.8132] device (veth249d03f): driver 'veth' does not support carrier detection. Jun 23 04:28:33 vanila NetworkManager[1405]: <info> [1529724513.8134] device (veth18d1bdd): link connected Jun 23 04:28:41 vanila gnome-session-binary[3683]: Entering running state Jun 23 04:36:22 vanila kernel: [ 487.292420] zram: Added device: zram0 Jun 23 04:36:22 vanila kernel: [ 487.340465] zram0: detected capacity change from 0 to 68719476736 Jun 23 04:36:23 vanila kernel: [ 487.934775] EXT4-fs (zram0): mounted filesystem with ordered data mode. Opts: discard Jun 23 04:46:18 vanila kernel: [ 1082.725056] perf: interrupt took too long (2631 > 2500), lowering kernel.perf_event_max_sample_rate to 76000 Jun 23 04:50:37 vanila kernel: [ 1341.746646] perf: interrupt took too long (3303 > 3288), lowering kernel.perf_event_max_sample_rate to 60500 Jun 23 04:51:43 vanila NetworkManager[1405]: <info> [1529725903.8403] address 192.168.1.85 Jun 23 04:51:43 vanila NetworkManager[1405]: <info> [1529725903.8411] plen 24 (255.255.255.0) Jun 23 04:51:43 vanila NetworkManager[1405]: <info> [1529725903.8414] gateway 192.168.1.254 Jun 23 04:51:43 vanila NetworkManager[1405]: <info> [1529725903.8416] server identifier 192.168.1.254 Jun 23 04:51:43 vanila NetworkManager[1405]: <info> [1529725903.8418] lease time 3600 Jun 23 04:51:43 vanila NetworkManager[1405]: <info> [1529725903.8421] nameserver '192.168.1.254' Jun 23 04:51:43 vanila NetworkManager[1405]: <info> [1529725903.8423] domain name 'lan' Jun 23 04:51:43 vanila NetworkManager[1405]: <info> [1529725903.8425] dhcp4 (enp8s0): state changed bound -> bound Jun 23 04:56:01 vanila kernel: [ 1666.229322] perf: interrupt took too long (4136 > 4128), lowering kernel.perf_event_max_sample_rate to 48250

我几乎肯定这与 docker veth 有关,所以我认为这个输出是无用的。zram0interrupt took too long可能来自ryzen 测试我目前正在运行它来做另一次压力测试

此刻,我正在考虑出售该系统。我不知道该如何处理这个问题,我需要一个功能强大的服务器来进行研究。这让我很疲惫。

我还能做些什么来尝试调试这个问题吗?

答案1

我找到了解决方案

在 BIOS 中禁用 C 睡眠状态(深度睡眠)和 AMD cool'n'quiet

相关内容