这个硬盘坏了/快要坏了吗?
现在它还在运行,我正在上面写东西 - 我已备份了所有数据,但我仍然不确定它是否可用?
联系制造商并没有多大帮助:他们要求我安装 Windows 并从那里运行磁盘检查实用程序,或者将其作为外部驱动器连接到 Windows 主机并在那里进行测试。
我做了这两项操作,没有遇到任何错误。
我还用他们提供的实用程序检查了它(见下面的屏幕截图)。然后我使用我用 clonezilla 制作的映像返回到 Ubuntu,我发现 SATA PHY 错误数接近 300 个错误!
我也检查了连接器,但由于 SSD 位于笔记本电脑中,因此我无法(轻松)更换电缆。
这些是制造商实用程序生成的测试结果
smartctl
稍后在 Ubuntu 上输出:
smartctl 6.5 2016-05-07 r4318 [x86_64-linux-4.14.0-041400-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Device Model: SPCC Solid State Disk
Serial Number: XXXXXXXXXX
Firmware Version: S9FM02.8
User Capacity: 120,034,123,776 bytes [120 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-3 (minor revision not indicated)
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Sun Feb 18 02:22:56 2018 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 30) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 2) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000a 100 100 000 Old_age Always - 0
9 Power_On_Hours 0x0012 100 100 000 Old_age Always - 6352
12 Power_Cycle_Count 0x0012 100 100 000 Old_age Always - 2717
168 Unknown_Attribute 0x0012 100 100 000 Old_age Always - 0
170 Unknown_Attribute 0x0013 100 100 010 Pre-fail Always - 25
173 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 105447539
192 Power-Off_Retract_Count 0x0012 100 100 000 Old_age Always - 77
194 Temperature_Celsius 0x0023 070 070 000 Pre-fail Always - 30
196 Reallocated_Event_Count 0x0000 100 100 000 Old_age Offline - 0
218 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 15431
241 Total_LBAs_Written 0x0012 100 100 000 Old_age Always - 6281157
SMART Error Log Version: 1
ATA Error Count: 298 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 298 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 01 01 00 00 00
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ff d5 01 01 00 00 00 ff 00:11:08.077 [VENDOR SPECIFIC]
ca 00 80 b0 8f 12 e1 00 00:11:08.076 WRITE DMA
ca 00 80 30 8f 12 e1 00 00:11:08.076 WRITE DMA
ca 00 80 b0 8e 12 e1 00 00:11:08.075 WRITE DMA
ca 00 80 30 8e 12 e1 00 00:11:08.074 WRITE DMA
Error 297 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 01 01 00 00 00
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ff d5 01 01 00 00 00 ff 00:11:08.039 [VENDOR SPECIFIC]
ca 00 80 b0 7c 12 e1 00 00:11:08.038 WRITE DMA
ca 00 80 30 7c 12 e1 00 00:11:08.038 WRITE DMA
ca 00 80 b0 7b 12 e1 00 00:11:08.037 WRITE DMA
ca 00 80 30 7b 12 e1 00 00:11:08.037 WRITE DMA
Error 296 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 01 01 00 00 00
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ff d5 01 01 00 00 00 ff 00:11:07.974 [VENDOR SPECIFIC]
ca 00 80 b0 48 12 e1 00 00:11:07.973 WRITE DMA
ca 00 80 30 48 12 e1 00 00:11:07.972 WRITE DMA
ca 00 80 b0 47 12 e1 00 00:11:07.972 WRITE DMA
ca 00 80 30 47 12 e1 00 00:11:07.972 WRITE DMA
Error 295 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 01 01 00 00 00
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ff d5 01 01 00 00 00 ff 00:11:07.927 [VENDOR SPECIFIC]
ca 00 80 b0 2a 12 e1 00 00:11:07.926 WRITE DMA
ca 00 80 30 2a 12 e1 00 00:11:07.925 WRITE DMA
ca 00 80 b0 29 12 e1 00 00:11:07.925 WRITE DMA
ca 00 80 30 29 12 e1 00 00:11:07.924 WRITE DMA
Error 294 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 01 01 00 00 00
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ff d5 01 01 00 00 00 ff 00:11:07.899 [VENDOR SPECIFIC]
ca 00 80 b0 22 12 e1 00 00:11:07.898 WRITE DMA
ca 00 80 30 22 12 e1 00 00:11:07.897 WRITE DMA
ca 00 80 b0 21 12 e1 00 00:11:07.897 WRITE DMA
ca 00 80 30 21 12 e1 00 00:11:07.896 WRITE DMA
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 6288 -
# 2 Conveyance offline Completed without error 00% 6285 -
# 3 Short offline Completed without error 00% 6285 -
# 4 Extended offline Completed without error 00% 6283 -
# 5 Extended offline Completed without error 00% 6283 -
# 6 Short offline Completed without error 00% 6283 -
# 7 Extended offline Completed without error 00% 6262 -
# 8 Conveyance offline Completed without error 00% 6262 -
# 9 Conveyance offline Completed without error 00% 6262 -
#10 Extended offline Completed without error 00% 6262 -
#11 Short offline Completed without error 00% 6262 -
#12 Conveyance offline Completed without error 00% 6211 -
#13 Extended offline Completed without error 00% 6211 -
#14 Short offline Completed without error 00% 6211 -
#15 Short offline Completed without error 00% 6075 -
#16 Conveyance offline Completed without error 00% 5564 -
#17 Extended offline Completed without error 00% 5564 -
#18 Short offline Completed without error 00% 5564 -
#19 Conveyance offline Completed without error 00% 5319 -
#20 Short offline Completed without error 00% 5319 -
#21 Conveyance offline Completed without error 00% 4403 -
SMART Selective self-test log data structure revision number 0
Note: revision number not 1 implies that no selective self-test has ever been run
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
答案1
更换您的 SSD
评论中人们尝试了很多方法,但这款 SSD 似乎存在一些问题。
根据 SMART 读数判断,您的硬盘没有太多使用(每天开机约 250 次,写入约 6 TB),而且您说它已经使用约 2 年了。这应该在保修范围内!
我的建议是
- 立即备份所有数据(尽管你说你已经备份了)
- 移除/更换 SSD(当然取决于你的预算)
- 将磁盘发送给制造商进行更换
只需发送即可在此处提出 RMA 请求。
答案2
2017 年 5 月 11 日之前的某个时间,您更新了 SSD 固件。然而,新版本于2017 年 9 月您应该使用 Windows 来应用它。
运行fstrim
以丢弃文件系统中未使用的块:
$ sudo fstrim --verbose --all
/mnt/c: 16 EiB (18446744073709551615 bytes) trimmed
/mnt/e: 16 EiB (18446744073709551615 bytes) trimmed
/: 23.4 GiB (25132920832 bytes) trimmed
就我而言,Windows 10 分区的结果/mnt/c
令人/mnt/e
难以置信。所以我检查了文件,数据没有受到损害。
fsck -f
当分区未挂载时,使用 Live-USB 启动后在 SSD 上运行。另一个选项是fsck -f
从 grub 运行 -如何在卸载硬盘并使用可启动 USB 驱动器对硬盘进行 fsck?。
正如评论中提到的,损坏的 SATA 电缆可能会导致错误。但这个答案指出,连接松动也会导致错误。要排除连接不良/松动,请从 SSD 上拔下插头,用压缩空气吹向插头和驱动器上的公插针,然后重新牢固地安装电缆。
你的时间值多少钱?
最后一个问题是你的时间值多少钱。假设你花了 10 个小时来解决这个问题,那么每小时 5 美元,因为许多全新的 120GB SATA III SSD 可以从以下网站购买易趣网
2018 年 2 月 23 日更新
我今晚看了所有其他答案。其中一个答案说要退货。但如果你退货了,他们发现没有问题,他们就会直接把它寄回去,而你将有 2 周到 2 个月的时间无法使用硬盘。
另一个答案说 smartctl 报告驱动器没有问题。
在这个答案中我建议运行fsck -f
并且你回答说没有报告错误。
fsck
每次启动时运行
作为否定答案(退回)和肯定答案(没有错)之间的妥协,我倾向于fsck
每次启动时运行。如果发现错误,启动将暂停,您可以阅读错误消息。总结链接使用:
sudo tune2fs -c 1 /dev/sdX
注意:替换X
为您的驱动器号,即a
,,b
等等。。
如果一个月后没有错误,则将值从 更改为 ,1
我30
相信这对于大多数系统来说都是典型的。在典型的 SSD 上,它将fsck
运行得很快。
清洁并重新安装 SATA 电缆
其他人提到更换 SATA 电缆,这对笔记本电脑来说是个问题。作为一种折衷方案,请考虑拔下驱动器侧的所有电缆,在公端和母端使用压缩空气,然后将电缆重新牢固插入。
答案3
您的驱动器没有任何问题。所有测试均通过。您只是误解了 SMART 数据。
首先,第一个屏幕截图包含原始数据,您无法得出任何结论。我不知道它的创建者认为这些数据对任何人有什么用处,但它实际上没有任何意义。除非可以通过在窗口中向右滚动或类似方式到达有意义的列。
让我解释一下 SMART 报告(您发布的后一份报告)中的列。
- 属性名称:指标的名称
- 值:当前值,值越高越好。值通常为 100 分制,其中 100 为最佳,但可以使用任何比例,只要值越高越好。即使指标是“错误率”,它也是标准化的,因此值越高意味着错误率越低。
- 更差:最差的观测值,越高越好。
- 阈值:如果值低于此值,则为失败条件。等于或高于此值 = 通过。
- 类型:失败条件对于该指标意味着什么。
- Old_age:这个指标表明驱动器的年龄/使用情况,而不是特定的问题。
- 预故障:此指标表明驱动器存在潜在问题,增加了驱动器故障的可能性。
- When_failed:当进入失败模式时,如果有
- Raw_value:对值有贡献的驱动器内部测量值 - 这对最终用户没有用,较低或较高的值并不一定表示更好或更差。
针对报告中的某些具体领域:
SMART 整体健康自我评估测试结果:通过
这反映了所有已通过的指标。所有测量指标均未进入失败状态。
“错误”日志对于驱动器而言相对典型。这些并不一定表示不可恢复的错误,甚至驱动器本身的问题;它们的报告很模糊,因此您无法从中判断实际发生了什么,除非是在控制器的 DMA 传输期间,但如果有什么重要的事情,它将反映在整体健康报告中。具体来说,这些错误可能是相当无害的事情,例如在控制器端取消的写入,或者操作系统在加载期间请求驱动器不支持的某些功能,这在探测设备功能时可能是完全正常的。
最后,关于 CRC 错误或错误率的说明:所有驱动器都有错误率。驱动器以如此高的密度存储数据,以至于通过使用错误校正代码,可以预期并设计一定数量的位错误。错误校正代码确保每块位可以发生一定数量的位错误,并可以 100% 纠正。驱动器始终不断应用错误校正代码,错误校正代码的设计使得发生错误的可能性不可恢复在运行良好的驱动器中,随机发生的错误非常少(比中彩票的可能性要小得多)。如果您在任何统计数据中看到错误率,并且认为这没什么大不了的,那是因为它不是,它只是纠正错误。
答案4
由于您只有 WRITE DMA 错误和短的和长时间测试未发现任何错误。
由于 DMA 涉及直接内存访问,请尝试找出 BIOS 是否有单独的硬件诊断测试,并尝试进行内存相关的测试。
如果没有可用的 BIOS 嵌入式测试,请查看制造商支持网站是否有可用的离线硬件诊断(例如:可启动 ISO 文件刻录到 CD 或 USB 记忆棒上)
(顺便说一句:Ubuntu CD 也有内存诊断功能)
因为 DMA 写入是 IO,所以我会尝试更换 SATA 电缆,看看之后是否没有添加新的错误编号(最后一个是 298,但现在可以添加更多)