我的 Windows 服务器随机崩溃

我的 Windows 服务器随机崩溃

本周,我的一台 Windows 机器出现了奇怪的随机崩溃。崩溃总是以 BSOD 结束,但随机系统驱动程序中会出现随机错误代码。事件日志中没有记录。

所以首先猜测是内存,但我意识到里面只有一个 SSD 磁盘。我不相信磁盘中的任何 SMART 数据,但这次也许我应该相信。你怎么看?使用 Parted magic 对磁盘进行自检没问题。我负担不起写入测试。

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   120   120   050    Pre-fail  Always       -       0/0
  5 Retired_Block_Count     0x0033   100   100   003    Pre-fail  Always       -       0
  9 Power_On_Hours_and_Msec 0x0032   095   095   000    Old_age   Always       -       4581h+05m+42.650s
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       290
171 Program_Fail_Count      0x0032   000   000   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   000   000   000    Old_age   Always       -       0
174 Unexpect_Power_Loss_Ct  0x0030   000   000   000    Old_age   Offline      -       11
177 Wear_Range_Delta        0x0000   000   000   000    Old_age   Offline      -       1
181 Program_Fail_Count      0x0032   000   000   000    Old_age   Always       -       0
182 Erase_Fail_Count        0x0032   000   000   000    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0022   128   129   000    Old_age   Always       -       128 (0 127 0 129 0)
195 ECC_Uncorr_Error_Count  0x001c   100   100   000    Old_age   Offline      -       0/0
196 Reallocated_Event_Count 0x0033   100   100   003    Pre-fail  Always       -       0
201 Unc_Soft_Read_Err_Rate  0x001c   100   100   000    Old_age   Offline      -       0/0
204 Soft_ECC_Correct_Rate   0x001c   100   100   000    Old_age   Offline      -       0/0
230 Life_Curve_Status       0x0013   100   100   000    Pre-fail  Always       -       100
231 SSD_Life_Left           0x0013   100   100   010    Pre-fail  Always       -       0
233 SandForce_Internal      0x0000   000   000   000    Old_age   Offline      -       1319
234 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       944
241 Lifetime_Writes_GiB     0x0032   000   000   000    Old_age   Always       -       944
242 Lifetime_Reads_GiB      0x0032   000   000   000    Old_age   Always       -       1317


Model Family:     SandForce Driven SSDs
Device Model:     Corsair Force 3 SSD

答案1

它至少创建了内存转储吗?如果没有,请检查您的系统是否配置为创建内存转储,等待它再次发生,然后使用 Windbg 查看 memory.dmp 文件。

答案2

我找到了。这些 SSD 的睡眠模式存在一个很大的错误。如果磁盘进入睡眠模式,有时可能会出现唤醒问题,因为它会忽略 COM_WAK 语句。我不知道为什么它现在开始这样做,也许是 Windows 更新造成的。

但是,我更新了系统的每个固件,并将磁盘固件更新到 5.3 后,崩溃就消失了。

答案3

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
194 Temperature_Celsius     0x0022   128   129   000    Old_age   Always       -       128 (0 127 0 129 0)

嗯,假设这是真的,那么问题就在于你的电脑已经热到足以烧开水了。所以,你需要做的是投资一个合适的水壶来满足你的烧水需求,让你的电脑保持凉爽,而不是用它来产生蒸汽。

相关内容