我在 Dell D400 笔记本电脑上运行 ubuntu 10.10。我从安装在 NexStar3 USB 外壳中的 WD Scorpio Blue 2.5" 驱动器上的 LVM 卷启动并运行系统。
在大多数情况下,这非常有效。但是,大约几天后,系统通常会失去对系统分区的访问权限。我不确定到底发生了什么,并且很难诊断,因为我无法访问相关的系统实用程序:
$ mount
bash: /bin/mount: Input/output error
$ ls
Bus error
$ tail /var/log/messages
bash: /usr/bin/tail: Input/output error
$ cat /var/log/messages
Segmentation fault
即使关闭也不能干净地完成:
$ sudo shutdown -h now
bash: /usr/bin/sudo: Input/output error
$ sudo halt
bash: /usr/bin/sudo: Input/output error
我发现的唯一恢复过程是按住电源按钮几秒钟来硬重启。
当此错误状态处于活动状态时,机柜指示灯会稳定亮起。通常它会不断地闪烁。
我从内部驱动器迁移了系统文件。在迁移之前我没有遇到这些问题。我好像记得他们不久之后就开始了。
更新
按照 Gilles 进行远程日志记录的建议产生了以下syslog
输出:
<6>Aug 12 01:00:25 box kernel: [229825.120148] usb 1-5: reset high speed USB device using ehci_hcd and address 2
<3>Aug 12 01:00:26 box kernel: [229825.700267] usb 1-5: device not accepting address 2, error -71
<3>Aug 12 01:00:26 box kernel: [229825.758145] ehci_hcd 0000:00:1d.7: port 5 reset error -110
<3>Aug 12 01:00:26 box kernel: [229825.758160] hub 1-0:1.0: hub_port_status failed (err = -32)
<6>Aug 12 01:00:26 box kernel: [229825.960116] usb 1-5: USB disconnect, address 2
<6>Aug 12 01:00:26 box kernel: [229825.980062] sd 2:0:0:0: Device offlined - not ready after error recovery
<6>Aug 12 01:00:26 box kernel: [229825.980108] sd 2:0:0:0: [sdb] Unhandled error code
<6>Aug 12 01:00:26 box kernel: [229825.980112] sd 2:0:0:0: [sdb] Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
<6>Aug 12 01:00:26 box kernel: [229825.980118] sd 2:0:0:0: [sdb] CDB: Read(10): 28 00 31 b1 a0 35 00 00 20 00
<3>Aug 12 01:00:26 box kernel: [229825.980132] end_request: I/O error, dev sdb, sector 833724469
<3>Aug 12 01:00:26 box kernel: [229825.980167] Buffer I/O error on device dm-1, logical block 44564614
<4>Aug 12 01:00:26 box kernel: [229825.980171] lost page write due to I/O error on dm-1
<3>Aug 12 01:00:26 box kernel: [229825.984068] Aborting journal on device dm-4-8.
<3>Aug 12 01:00:26 box kernel: [229825.984100] Buffer I/O error on device dm-4, logical block 1081344
<4>Aug 12 01:00:26 box kernel: [229825.984104] lost page write due to I/O error on dm-4
<3>Aug 12 01:00:26 box kernel: [229825.984113] JBD2: I/O error detected when updating journal superblock for dm-4-8.
<3>Aug 12 01:00:26 box kernel: [229825.984181] Buffer I/O error on device dm-4, logical block 1675867
<4>Aug 12 01:00:26 box kernel: [229825.984185] lost page write due to I/O error on dm-4
<3>Aug 12 01:00:26 box kernel: [229825.984190] Buffer I/O error on device dm-4, logical block 1675868
<4>Aug 12 01:00:26 box kernel: [229825.984193] lost page write due to I/O error on dm-4
<3>Aug 12 01:00:26 box kernel: [229825.984200] Buffer I/O error on device dm-4, logical block 1684657
<4>Aug 12 01:00:26 box kernel: [229825.984204] lost page write due to I/O error on dm-4
<4>Aug 12 01:00:26 box kernel: [229825.984389] JBD2: Detected IO errors while flushing file data on dm-4-8
<43>Aug 12 01:00:26 box rsyslogd: /var/log/syslog
<43>Aug 12 01:00:26 box rsyslogd: /var/log/kern.log
<43>Aug 12 01:00:26 box rsyslogd: /var/log/messages
<2>Aug 12 01:00:26 box kernel: [229825.991754] EXT4-fs error (device dm-4): ext4_journal_start_sb: Detected aborted journal
<2>Aug 12 01:00:26 box kernel: [229825.991765] EXT4-fs (dm-4): Remounting filesystem read-only
<3>Aug 12 01:00:26 box kernel: [229826.136474] Buffer I/O error on device dm-1, logical block 44726233
<4>Aug 12 01:00:26 box kernel: [229826.136480] lost page write due to I/O error on dm-1
<3>Aug 12 01:00:26 box kernel: [229826.136487] Buffer I/O error on device dm-1, logical block 44726234
<4>Aug 12 01:00:26 box kernel: [229826.136491] lost page write due to I/O error on dm-1
<3>Aug 12 01:00:26 box kernel: [229826.144081] Aborting journal on device dm-1-8.
<3>Aug 12 01:00:26 box kernel: [229826.144099] Buffer I/O error on device dm-1, logical block 13139968
<4>Aug 12 01:00:26 box kernel: [229826.144103] lost page write due to I/O error on dm-1
<3>Aug 12 01:00:26 box kernel: [229826.144110] JBD2: I/O error detected when updating journal superblock for dm-1-8.
<0>Aug 12 01:00:26 box kernel: [229826.144124] journal commit I/O error
倒数第 10 行,即 229825.991765,是文件系统以只读方式重新挂载的位置。我扫描了其余部分,没有看到任何表明它已完全卸载的内容,因此系统本身变得无法访问的原因有点神秘。
无论如何,一开始的USB错误似乎是导致崩溃的原因。
这可能是笔记本电脑 USB 控制器/驱动程序的问题吗?或者更有可能使用 USB 外壳?我怎么知道?
答案1
这听起来不太好。使用 dmesg 检查内核是否有问题,但该命令也可能失败。许多 Linux 发行版在控制台 10 上显示内核消息,您可以使用 Ctrl-Alt-F10 转到那里。
答案2
是睡眠问题吗?您可以尝试apm=off
在acpi=off
内核线上查看它是否使芯片组保持唤醒状态。还要检查您的 BIOS 设置并确保它没有尝试让设备进入睡眠状态。
此外,您还可以检查hdparm
驱动器是否在一段时间后尝试让自己进入睡眠状态。不要立即记住细节,pinfo hdparm
否则man hdparm
可能会有所帮助。
答案3
输入输出错误意味着正在丢失一些数据,这意味着几乎没有有关该管道的信息是可靠的。
我会跳过诊断部分并考虑数据救援场景。