硬件更改后无法启动 (OpenMediaVault)

硬件更改后无法启动 (OpenMediaVault)

我遇到了一个我自己无法解决的问题,所以我决定在这里寻求一些帮助:

介绍 :

几周后搬到我的新家,我决定对我的 NAS 进行一些硬件更新:

  • 迷你 Itx 机箱
  • Intel Celeron g4900(需要时使用集成显卡)
  • 2x4 GB DDR4-2400
  • ZFS Z1 中的 4x3 TB NAS 驱动器 Wd Red 设置
  • 华硕H310I-PLUS主板
  • Corsair Force mp500 120 GB 启动 nvme

在某些部件翻新硬件的帮助下,我更改为以下硬件:

  • 2U服务器机架
  • 海韵焦点650w电源
  • 4x4 GB SK 海力士 DDR4 2400 ECC
  • Intel Xeon E5 2683 V4 SR2JT,2.1GHz,16 核,LGA2011-3(翻新)
  • 机械师X99 K9主板
  • 猫头鹰 NH-L12S CPU 散热器
  • Nvidia GT 710 低调(翻新)

首先,我知道很容易有人会说这里出现的所有问题都是翻新硬件或主板的故障,但在 Ubuntu Live USB 和一些 CPU/Mem 负载上遇到问题后,我测试了所有这些部件/压力测试,至于现场发行版,一切顺利......

问题 :

在我的电视上插入 HDMI 电缆启动时,系统在变绿并显示白色文本后冻结。

这是一个视频,我已经尝试更改 grub.cfg 文件中的某些设置(删除安静选项并设置 nomodeset 标志):

https://youtu.be/aZlQ-ADaghw

似乎恢复系统的唯一方法是重置按钮,因为系统 100% 冻结,没有快捷方式工作,没有控制台......

日志和调查:

这是我用 Live USB 成功提取的启动日志:

https://pastebin.com/jqQV2Q1b

在此日志中,我不知道这些行是否是问题所在(除法错误):

nvidiafb: Unable to detect display type...
nov. 29 02:03:41 NomadNas kernel: ...Using default of CRT
nov. 29 02:03:41 NomadNas kernel: nvidiafb: Unable to detect which CRTCNumber...
nov. 29 02:03:41 NomadNas kernel: ...Defaulting to CRTCNumber 0
nov. 29 02:03:41 NomadNas kernel: nvidiafb: Using CRT on CRTC 0
nov. 29 02:03:41 NomadNas kernel: fbcon: NV28 (fb0) is primary device
nov. 29 02:03:41 NomadNas kernel: divide error: 0000 [#1] SMP PTI
nov. 29 02:03:41 NomadNas kernel: CPU: 0 PID: 389 Comm: kworker/0:3 Tainted: P           O      5.4.143-1-pve #1
nov. 29 02:03:41 NomadNas kernel: Hardware name: Default string Default string/X99-k9, BIOS 5.11 01/11/2021
nov. 29 02:03:41 NomadNas kernel: Workqueue: events work_for_cpu_fn
nov. 29 02:03:41 NomadNas kernel: RIP: 0010:nvGetClocks+0x186/0x280 [nvidiafb]
nov. 29 02:03:41 NomadNas kernel: Code: 0f 00 00 3d 00 03 00 00 74 73 3d 30 03 00 00 74 6c 41 8b 89 04 05 00 00 0f b6 c5 44 0f b6 c9 c1 e9 10 0f af c2 31 d2 83 e1 0f <41> f7 f1 d3 e8 89 06 48 8b 87 40 11 00 00 8b 88 00 05 00 00 0f b6
nov. 29 02:03:41 NomadNas kernel: RSP: 0018:ffffaecd009dfa80 EFLAGS: 00010246
nov. 29 02:03:41 NomadNas kernel: RAX: 0000000000000000 RBX: ffff95e08d5aa510 RCX: 0000000000000000
nov. 29 02:03:41 NomadNas kernel: RDX: 0000000000000000 RSI: ffffaecd009dfab8 RDI: ffff95e08d5aa418
nov. 29 02:03:41 NomadNas kernel: RBP: ffffaecd009dfa88 R08: ffffaecd009dfabc R09: 0000000000000000
nov. 29 02:03:41 NomadNas kernel: R10: ffff95e08d5aa418 R11: 0000000000062570 R12: 0000000000000020
nov. 29 02:03:41 NomadNas kernel: R13: 0000000000006247 R14: 0000000000000010 R15: 0000000000000068
nov. 29 02:03:41 NomadNas kernel: FS:  0000000000000000(0000) GS:ffff95e09f400000(0000) knlGS:0000000000000000
nov. 29 02:03:41 NomadNas kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
nov. 29 02:03:41 NomadNas kernel: CR2: 00007f323bf6a22d CR3: 00000005c660a005 CR4: 00000000003606f0
nov. 29 02:03:41 NomadNas kernel: DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
nov. 29 02:03:41 NomadNas kernel: DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400
nov. 29 02:03:41 NomadNas kernel: Call Trace:
nov. 29 02:03:41 NomadNas kernel:  NVCalcStateExt+0x1c7/0x950 [nvidiafb]
nov. 29 02:03:41 NomadNas kernel:  ? _cond_resched+0x19/0x30
nov. 29 02:03:41 NomadNas kernel:  ? _cond_resched+0x19/0x30
nov. 29 02:03:41 NomadNas kernel:  ? kmem_cache_alloc_trace+0x172/0x240
nov. 29 02:03:41 NomadNas kernel:  nvidiafb_set_par+0x49e/0xa40 [nvidiafb]
nov. 29 02:03:41 NomadNas kernel:  fbcon_init+0x2ad/0x570
nov. 29 02:03:41 NomadNas kernel:  visual_init+0xd5/0x130
nov. 29 02:03:41 NomadNas kernel:  do_bind_con_driver+0x1ed/0x2e0
nov. 29 02:03:41 NomadNas kernel:  do_take_over_console+0x129/0x1a0
nov. 29 02:03:41 NomadNas kernel:  do_fbcon_takeover+0x5c/0xb0
nov. 29 02:03:41 NomadNas kernel:  fbcon_fb_registered+0x113/0x120
nov. 29 02:03:41 NomadNas kernel:  register_framebuffer+0x230/0x310
nov. 29 02:03:41 NomadNas kernel:  nvidiafb_probe.cold.12+0x78e/0x80a [nvidiafb]
nov. 29 02:03:41 NomadNas kernel:  local_pci_probe+0x47/0x80
nov. 29 02:03:41 NomadNas kernel:  work_for_cpu_fn+0x1a/0x30
nov. 29 02:03:41 NomadNas kernel:  process_one_work+0x20f/0x3d0
nov. 29 02:03:41 NomadNas kernel:  worker_thread+0x233/0x400
nov. 29 02:03:41 NomadNas kernel:  kthread+0x120/0x140
nov. 29 02:03:41 NomadNas kernel:  ? process_one_work+0x3d0/0x3d0
nov. 29 02:03:41 NomadNas kernel:  ? kthread_park+0x90/0x90
nov. 29 02:03:41 NomadNas kernel:  ret_from_fork+0x35/0x40
nov. 29 02:03:41 NomadNas kernel: Modules linked in: snd_hda_codec_hdmi(+) intel_rapl_msr intel_rapl_common uas usb_storage input_leds joydev usbkbd x86_pkg_temp_thermal intel_powerclamp snd_hda_codec_realtek kvm_intel snd_hda_codec_generic ledtrig_audio kvm irqbypass snd_hda_intel crct10dif_pclmul snd_intel_dspcfg crc32_pclmul ghash_clmulni_intel snd_hda_codec aesni_intel snd_hda_core crypto_simd snd_hwdep cryptd glue_helper snd_pcm nvidiafb(+) snd_timer vgastate rapl snd fb_ddc intel_cstate serio_raw pcspkr mxm_wmi i2c_algo_bit soundcore mac_hid zfs(PO) zunicode(PO) zzstd(O) zlua(O) zavl(PO) icp(PO) zcommon(PO) znvpair(PO) spl(O) coretemp nfsd auth_rpcgss nfs_acl lockd grace sunrpc ip_tables x_tables autofs4 hid_generic usbmouse usbhid hid btrfs zstd_compress raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c raid1 raid0 multipath linear psmouse ahci xhci_pci r8169 ehci_pci i2c_i801 libahci lpc_ich realtek xhci_hcd ehci_hcd wmi
nov. 29 02:03:41 NomadNas kernel: ---[ end trace 91e53edc0a767313 ]---
nov. 29 02:03:41 NomadNas kernel: RIP: 0010:nvGetClocks+0x186/0x280 [nvidiafb]
nov. 29 02:03:41 NomadNas kernel: Code: 0f 00 00 3d 00 03 00 00 74 73 3d 30 03 00 00 74 6c 41 8b 89 04 05 00 00 0f b6 c5 44 0f b6 c9 c1 e9 10 0f af c2 31 d2 83 e1 0f <41> f7 f1 d3 e8 89 06 48 8b 87 40 11 00 00 8b 88 00 05 00 00 0f b6

向社区提出的问题:

首先,感谢任何人花一些时间在这方面帮助我,在我擦除所有启动驱动器并开始新设置(需要设置的所有内容、docker、ZFS...)之前,您是我最后的希望。

  • 我怎样才能有一个最小的工作环境(例如:没有加载 nVidia 驱动程序,我尝试了 nomodeset 它不起作用),以便在系统上而不是在实时 USB 发行版上操作控制台
  • 这真的与这个“除法错误”有关吗,因为这个问题之后仍然有一些日志行
  • 重新安装 OMV 并丢失几乎所有设置是我唯一的选择吗? (是的,我仍然可以备份一些 .config 文件,但是......)
  • 新安装还有机会工作吗? (硬件/OMV不兼容??)

非常感谢您的帮助 :)

答案1

最后通过使用 ./etc/modprobe.d/openmediavault.conf 将 nvidiafb 模块列入黑名单(暂时)使其正常工作

blacklist nvidiafb

我还补充道:

blacklist sb_edac

但我认为这不是问题,所以我最好删除这一行,因为列表中显示的 ECC 消息只是一些警告...如果我不在这篇文章中回复,请认为最后一行黑名单毫无用处:)。

相关内容