我们一台运行 Ubuntu 20.04 的服务器上发生了一些事情,导致当时通过 ssh 登录的同事在尝试使用 su 命令时收到“用户不在密码中”错误。他们试图切换到的用户存在,他们有切换到该用户的权限。
同时,我通过 ssh 连接到服务器的任何尝试都立即被拒绝(连接被拒绝)。因为这非常奇怪,所以我检查了托管在该服务器上的我们的网站,它返回了 500 个错误。
我决定尝试使用我的服务器主机 (DigitalOcean) Web 控制台连接到服务器,但它也拒绝了我的连接。作为最后一次尝试,我登录了我们的另一台服务器,并尝试通过 ssh 进入受影响的服务器,以为我的 IP 地址可能被意外阻止了,但连接再次被立即拒绝。
此时,由于无法访问服务器,并且我的同事无法执行任何特权命令,因此我决定尝试重新启动服务器。
服务器重启后,它就再也没有响应了。我们的网站不再返回任何内容,DigitalOcean 指标也消失了。所以我拍了系统快照,将服务器恢复到备份版本,更新了所有登录凭据,并尝试使用我拍摄的快照启动新服务器,但使用快照失败了。
我已经与 DigitalOceans 支持团队进行了交流,但他们并没有提供什么帮助。你们中有人遇到过类似的问题吗?或者知道是什么原因导致 Ubuntu 系统中出现此类问题吗?
我们的系统是最新的,最近的更新是在两周前安装的,在实际发生此问题之前,我没有注意到任何问题的症状。我们所有的服务器指标都正常,我们的磁盘容量远未达到上限,我们的带宽没有高于正常水平,内存和 CPU 使用率远低于我们系统上的可用水平。
更新: 在继续与 DigitalOcean 支持人员沟通后,似乎我拍摄的快照无法用于创建新服务器,因为缺少影子文件。我猜这至少可以解释我们看到的几个问题,也可以解释为什么我的同事无法使用 su。