解决不稳定操作系统的问题

解决不稳定操作系统的问题

我喜欢将 jupyter 笔记本从远程 ubuntu 服务器端口转发到本地笔记本电脑。因此,我在 ubuntu 服务器上运行 jupyter 笔记本服务器并将其转发到本地笔记本电脑。我经常让笔记本服务器连续运行几天甚至几周。我的服务器上也运行着一个 mysql 数据库,它会全天更新。最近我遇到了更多问题,我的服务器似乎锁定了,我无法通过 ssh 登录,当我直接连接时,它会显示重复的消息,其中一些消息涉及长串的数字和字母序列。我不得不通过硬关机、从实时媒体启动以及在启动 efi 和操作系统的分区上运行 fsck -y 来解决这个问题。我想知道这些问题是否与正在运行以更新 mysql db 并最大化所有可用临时目录空间的进程有关。似乎我过去曾发生过冲突,jupyter 笔记本和 mysql 争夺临时目录/内存。另外,我最近在使用 LLM 和下载一些较大模型的权重时遇到了问题,它耗尽了我的可用温度/内存,然后操作系统变得不稳定,直到从实时媒体启动并在操作系统和启动分区上运行 fsck -y。我知道这有很多问题,但这是否给任何人敲响了警钟?

除了从实时媒体启动并运行“fsck -y”之外,是否有人可以建议任何其他清理/修复步骤,例如在操作系统驱动器上智能运行?

我跑了

sudo smartctl /dev/nvme1n1 -x | less

在安装操作系统的 nvme1n1 驱动器上,但没有看到任何异常。它说它“通过了”。

非常感谢您的任何建议。

相关内容