WD(Sandisk)NVMe M.2 棒无法正常工作

WD(Sandisk)NVMe M.2 棒无法正常工作

需要说明的是,我预料到了会有麻烦。这台电脑是一台旧的 HP Z820(肯定不支持 NVMe 的 BIOS),安装了最新的 2018 年 BIOS 更新。这块硬盘是西部数据(Sandisk)的新款型号:

WD Black 500GB NVMe SSD - M.2 2280 - WDS500G2X0C

安装在 PCIe 3.0 x4 卡上:

Mailiya M.2 PCIe 转 PCIe 3.0 x4 适配器

我不是想从 NVMe 启动,只是用作存储。Linux 确实看到了驱动器(通过 lsblk 和 lspci)并且可以读取...但不能写入。

这是 Ubuntu 18.04.2 LTS,其内核版本为:

Linux brutus 4.15.0-46-generic #49-Ubuntu SMP 2019 年 2 月 6 日星期三 09:33:07 UTC x86_64 x86_64 x86_64 GNU/Linux

(也在 18.10 上测试过。)

提取了此版本和当前 5.0 Linux 的 Linux 源代码(来自 Github 上的 torvalds/linux)。Ubuntu LTS 和当前版本在驱动程序/nvme 方面存在很大差异,更新最新(!)为昨天(2019.03.16 在“cd drivers/nvme ; git log”中)。

就像我在开始时说的,预计会有麻烦。:)

应该说一下,我对 Linux 设备驱动程序稍微熟悉,并且编写过一个中等复杂程度的驱动程序。

尝试编译当前的 Linux 5.0 源代码,然后“rmmod nvme ; insmod nvme”——没有成功(这并不奇怪)。尝试将 5.0 nvme 驱动程序复制到 4.15 树中并进行编译——没有成功(也不奇怪,但嘿,必须尝试)。

下一个练习是启动当前的 Linux 5.0 内核。但最好还是公开一下,以防别人能更进一步。

读取似乎有效,但速度比预期慢:

# hdparm -t --direct /dev/nvme0n1 

/dev/nvme0n1:
 Timing O_DIRECT disk reads: 4840 MB in  3.00 seconds = 1612.83 MB/sec

# dd bs=1M count=8192 if=/dev/nvme0n1 of=/dev/null
8192+0 records in
8192+0 records out
8589934592 bytes (8.6 GB, 8.0 GiB) copied, 4.57285 s, 1.9 GB/s

写入严重失败:

# dd bs=1M count=2 if=/dev/zero of=/dev/nvme0n1 
(hangs)

来自 journalctl:

Mar 17 18:49:23 brutus kernel: nvme nvme0: async event result 00010300
Mar 17 18:49:23 brutus kernel: print_req_error: I/O error, dev nvme0n1, sector 0
Mar 17 18:49:23 brutus kernel: buffer_io_error: 118 callbacks suppressed
Mar 17 18:49:23 brutus kernel: Buffer I/O error on dev nvme0n1, logical block 0, lost async page write
[snip]
Mar 17 18:49:23 brutus kernel: print_req_error: I/O error, dev nvme0n1, sector 1024
Mar 17 18:49:23 brutus kernel: print_req_error: I/O error, dev nvme0n1, sector 3072

使用“nvme”命令行工具进行了一些尝试,但只是猜测:

# nvme list -o json
{
  "Devices" : [
    {
      "DevicePath" : "/dev/nvme0n1",
      "Firmware" : "101140WD",
      "Index" : 0,
      "ModelNumber" : "WDS500G2X0C-00L350",
      "ProductName" : "Unknown Device",
      "SerialNumber" : "184570802442",
      "UsedBytes" : 500107862016,
      "MaximiumLBA" : 976773168,
      "PhysicalSize" : 500107862016,
      "SectorSize" : 512
    }
  ]

仅供参考-lspci 输出:

03:00.0 Non-Volatile memory controller: Sandisk Corp Device 5002 (prog-if 02 [NVM Express])
        Subsystem: Sandisk Corp Device 5002
        Physical Slot: 1
        Control: I/O+ Mem+ BusMaster+ SpecCycle- MemWINV- VGASnoop- ParErr- Stepping- SERR+ FastB2B- DisINTx+
        Status: Cap+ 66MHz- UDF- FastB2B- ParErr- DEVSEL=fast >TAbort- <TAbort- <MAbort- >SERR- <PERR- INTx-
        Latency: 0, Cache Line Size: 64 bytes
        Interrupt: pin A routed to IRQ 37
        NUMA node: 0
        Region 0: Memory at de500000 (64-bit, non-prefetchable) [size=16K]
        Region 4: Memory at de504000 (64-bit, non-prefetchable) [size=256]
        Capabilities: [80] Power Management version 3
                Flags: PMEClk- DSI- D1- D2- AuxCurrent=0mA PME(D0-,D1-,D2-,D3hot-,D3cold-)
                Status: D0 NoSoftRst+ PME-Enable- DSel=0 DScale=0 PME-
        Capabilities: [90] MSI: Enable- Count=1/32 Maskable- 64bit+
                Address: 0000000000000000  Data: 0000
        Capabilities: [b0] MSI-X: Enable+ Count=65 Masked-
                Vector table: BAR=0 offset=00002000
                PBA: BAR=4 offset=00000000
        Capabilities: [c0] Express (v2) Endpoint, MSI 00
                DevCap: MaxPayload 512 bytes, PhantFunc 0, Latency L0s <1us, L1 unlimited
                        ExtTag- AttnBtn- AttnInd- PwrInd- RBE+ FLReset+ SlotPowerLimit 0.000W
                DevCtl: Report errors: Correctable+ Non-Fatal+ Fatal+ Unsupported+
                        RlxdOrd- ExtTag- PhantFunc- AuxPwr- NoSnoop+ FLReset-
                        MaxPayload 256 bytes, MaxReadReq 1024 bytes
                DevSta: CorrErr+ UncorrErr- FatalErr- UnsuppReq- AuxPwr- TransPend-
                LnkCap: Port #0, Speed 8GT/s, Width x4, ASPM L1, Exit Latency L0s <256ns, L1 <8us
                        ClockPM+ Surprise- LLActRep- BwNot- ASPMOptComp+
                LnkCtl: ASPM Disabled; RCB 64 bytes Disabled- CommClk+
                        ExtSynch- ClockPM- AutWidDis- BWInt- AutBWInt-
                LnkSta: Speed 8GT/s, Width x4, TrErr- Train- SlotClk+ DLActive- BWMgmt- ABWMgmt-
                DevCap2: Completion Timeout: Range B, TimeoutDis+, LTR+, OBFF Not Supported
                DevCtl2: Completion Timeout: 50us to 50ms, TimeoutDis-, LTR-, OBFF Disabled
                LnkCtl2: Target Link Speed: 8GT/s, EnterCompliance- SpeedDis-
                         Transmit Margin: Normal Operating Range, EnterModifiedCompliance- ComplianceSOS-
                         Compliance De-emphasis: -6dB
                LnkSta2: Current De-emphasis Level: -3.5dB, EqualizationComplete+, EqualizationPhase1+
                         EqualizationPhase2+, EqualizationPhase3+, LinkEqualizationRequest-
        Capabilities: [100 v2] Advanced Error Reporting
                UESta:  DLP- SDES- TLP- FCP- CmpltTO- CmpltAbrt- UnxCmplt- RxOF- MalfTLP- ECRC- UnsupReq- ACSViol-
                UEMsk:  DLP- SDES- TLP- FCP- CmpltTO- CmpltAbrt- UnxCmplt- RxOF- MalfTLP- ECRC- UnsupReq- ACSViol-
                UESvrt: DLP+ SDES+ TLP- FCP+ CmpltTO- CmpltAbrt- UnxCmplt- RxOF+ MalfTLP+ ECRC- UnsupReq- ACSViol-
                CESta:  RxErr- BadTLP- BadDLLP- Rollover- Timeout- NonFatalErr+
                CEMsk:  RxErr- BadTLP- BadDLLP- Rollover- Timeout- NonFatalErr+
                AERCap: First Error Pointer: 00, GenCap+ CGenEn- ChkCap+ ChkEn-
        Capabilities: [150 v1] Device Serial Number 00-00-00-00-00-00-00-00
        Capabilities: [1b8 v1] Latency Tolerance Reporting
                Max snoop latency: 0ns
                Max no snoop latency: 0ns
        Capabilities: [300 v1] #19
        Capabilities: [900 v1] L1 PM Substates
                L1SubCap: PCI-PM_L1.2- PCI-PM_L1.1- ASPM_L1.2+ ASPM_L1.1- L1_PM_Substates+
                          PortCommonModeRestoreTime=255us PortTPowerOnTime=10us
                L1SubCtl1: PCI-PM_L1.2- PCI-PM_L1.1- ASPM_L1.2- ASPM_L1.1-
                           T_CommonMode=0us LTR1.2_Threshold=0ns
                L1SubCtl2: T_PwrOn=10us
        Kernel driver in use: nvme
        Kernel modules: nvme

呵呵。功劳归功劳。:)

preston@brutus:~/sources/linux/drivers/nvme$ git log . | grep -i 'wdc.com\|@sandisk' | sed -e 's/^.*: //' | sort -uf
Adam Manzanares <[email protected]>
Bart Van Assche <[email protected]>
Bart Van Assche <[email protected]>
Chaitanya Kulkarni <[email protected]>
Jeff Lien <[email protected]>

还使用当前(2019.03.17)Linux内核进行了测试:

root@brutus:~# uname -a
Linux brutus 5.1.0-rc1 #1 SMP Mon Mar 18 01:03:14 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux

root@brutus:~# pvcreate /dev/nvme0n1 
  /dev/nvme0n1: write failed after 0 of 4096 at 4096: Input/output error
  Failed to wipe new metadata area at the start of the /dev/nvme0n1
  Failed to add metadata area for new physical volume /dev/nvme0n1
  Failed to setup physical volume "/dev/nvme0n1".

摘自期刊:

Mar 18 02:05:10 brutus kernel: print_req_error: I/O error, dev nvme0n1, sector 8 flags 8801
Mar 18 02:09:06 brutus kernel: print_req_error: I/O error, dev nvme0n1, sector 8 flags 8801
Mar 18 02:09:36 brutus kernel: print_req_error: I/O error, dev nvme0n1, sector 8 flags 8801

所以... 看起来它目前还不能在任何版本的 Linux 上运行。

答案1

我不知道您是否仍然遇到这些问题,但我至少会发布此信息以防其他人遇到它。

我有同样的驱动器,并将其用作运行 18.04 的主驱动器。我使用了 Windows 固件实用程序,到目前为止还没有看到任何更新。我还测试了 19.04 的实时环境,它与我在 18.04 和 18.10 中遇到的冻结/安装失败相同,因此问题似乎仍然存在。

问题似乎是驱动器进入低功耗状态时变得不稳定,因此解决方法是通过内核启动参数禁用低功耗模式。几个月前我这样做了,从那以后在 18.04 上没有遇到任何问题。此方法也适用于新版本 (18.10/19.04),但遗憾的是它尚未修复。

在 GRUB 启动菜单中,e按 编辑启动参数。nvme_core.default_ps_max_latency_us=5500在 quiet splash 末尾 添加Ctrl-x要启动,安装程序应在分区步骤中检测到此磁盘。

安装完成后,shift开机时按 再次进入 GRUB,添加相同的内核参数nvme_core.default_ps_max_latency_us=5500Ctrl-x即可启动。你会看到 Ubuntu 启动成功,再次编辑/etc/default/grub,添加参数nvme_core.default_ps_max_latency_us=5500,执行sudo update-grub。这样每次开机都会自动在 grub 中包含这个参数,不需要再手动编辑了。

https://community.wd.com/t/linux-support-for-wd-black-nvme-2018/225446/9

答案2

列出驱动器支持的电源状态smartctl -a /dev/nvme0

支持的电源状态
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat

找到Ex_Lat您要允许驱动器进入的最低功耗状态的值。如果您遇到问题,您可能希望允许倒数第二个功耗状态,但不允许最后一个功耗状态。假设倒数第二个功耗状态的值为Ex_Lat10000就像 WDS500G2X0C 上的情况一样)。

您可以添加nvme_core.default_ps_max_latency_us=10000核参数

如果您选择了 grub 路径并且更新/etc/default/grub没有成功,您可能需要更新 中的一个文件/etc/default/grub.d/

您可以通过运行检查系统启动时的参数cat /proc/cmdline,看看它是否包含您的更改。

相关内容