最近构建了一个新的 i9 服务器;它正在运行 ubuntu 14。
在过去的两个月里,这种情况已经发生过四次,今天可能导致一天的实验数据丢失。
事情是这样的:
- 服务器已经运行了几个星期
- 高峰时段同时有 2 到 3 个用户使用
- 今天我启动一个 SCP 传输(26MB),从服务器传输到另一个国家的远程集群(服务器:加拿大,集群:德国)
- SCP 达到 16% 并且所有 SSH 通信停止
- 我的 SSH 会话无响应,无法打开新会话;服务器上的其他用户也看到相同的症状(会话无响应,无法打开新会话)
- 该文件在集群上可用,但它不完整/损坏
对服务器执行 ping 操作后,返回结果为:“目标主机无法访问”
要使服务器再次运行,我们必须重新启动物理机。
有什么想法可能导致这种情况以及如何解决它?自构建新服务器以来,这种情况已经发生过 4 次,每次都是在将 20-30MB 的文件从服务器传输到集群时发生的。虽然我们每次传输这些文件时都不会发生这种情况,但这种情况发生的概率为 5%。
编辑:以下是 SSH 服务器不可用时的日志(来自 var/log/syslog):
Sep 26 09:17:01 snail CRON[34116]: (root) CMD ( cd / && run-parts --report/etc/cron.hourly)
Sep 26 10:17:01 snail CRON[34137]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@Sep 26 12:36:14 snail rsyslogd: [origin software="rsyslogd" swVersion="7.4.4" x-pid="763" x-info="http:/ /www.rsyslog.com"] start
Sep 26 12:36:14 snail rsyslogd: rsyslogd's groupid changed to 104
Sep 26 12:36:14 snail rsyslogd: rsyslogd's userid changed to 101
服务器在 11:30 左右停止响应,我于 12:36 重新启动了它(物理上);因此日志没有告诉我们 11:30 发生了什么
** 'snail' 是服务器的名称