我接手了大学研究小组使用的计算集群的管理工作。我收到一封来自用户的电子邮件,说 Web 界面没有响应。我可以 ping 机器,但无法 ssh 进入
如果我 ping 该地址,我就能找到主机并收到响应:
ping -c 20 cluster.host.myschool.edu
...
...
已发送 20 个数据包,已接收 19 个数据包,数据包丢失率为 5.0%
但如果我尝试 ssh:
ssh -v [email protected]
OpenSSH_6.2p2, OSSLShim 0.9.8r 8 Dec 2011
debug1: Reading configuration data /etc/ssh_config
debug1: /etc/ssh_config line 20: Applying options for *
debug1: /etc/ssh_config line 102: Applying options for *
debug1: Connecting to cluster.myschool.vt.edu [xxx.xx.xxx.xx] port 22.
debug1: Connection established.
debug1: identity file /Users/me/.ssh/id_rsa type 1
debug1: identity file /Users/me/.ssh/id_rsa-cert type -1
debug1: identity file /Users/me/.ssh/id_dsa type -1
debug1: identity file /Users/me/.ssh/id_dsa-cert type -1
debug1: Enabling compatibility mode for protocol 2.0
debug1: Local version string SSH-2.0-OpenSSH_6.2
然后它就永远挂起了,我必须杀死它,等待几分钟后它不会给我任何错误消息。
什么可能导致此问题?我确信此时我必须去物理机器上解决这个问题,但这让我感到疑惑:我可以从地址获得响应,但计算机已经崩溃了?
我不认为 ssh 服务器可能刚刚瘫痪了,因为托管图形界面的 Web 服务器也出现了类似的问题,如果我尝试访问我可以通过浏览器登录的网站,我不会收到服务器未找到或连接超时错误 Firefox 只是无限期地加载页面。
我并不是在寻求帮助来调试这个问题(尽管我会接受建议),我想知道这些不同的连接是如何工作的,为什么机器能响应 ping 却似乎对其他任何事情都没有反应
答案1
看起来服务器确实在响应 SSH,但并未完成您的登录。这就是 ping 可以工作的原因。即使服务器在其他方面完全没有响应,Ping 通常也可以工作。
尝试看看你是否能获得更多类似这样的信息
ssh -vvv [email protected]
服务器上可能会出现各种问题。例如磁盘故障、磁盘空间不足、内存问题、DNS 问题……谁知道呢。在这种情况下,守护进程可能会响应但无法按预期运行。