大型 SCP 传输后无法访问 SSH

2024-6-19 • tag-icon

最近构建了一个新的 i9 服务器；它正在运行 ubuntu 14。

在过去的两个月里，这种情况已经发生过四次，今天可能导致一天的实验数据丢失。

事情是这样的：

服务器已经运行了几个星期
高峰时段同时有 2 到 3 个用户使用
今天我启动一个 SCP 传输（26MB），从服务器传输到另一个国家的远程集群（服务器：加拿大，集群：德国）
SCP 达到 16% 并且所有 SSH 通信停止
我的 SSH 会话无响应，无法打开新会话；服务器上的其他用户也看到相同的症状（会话无响应，无法打开新会话）
该文件在集群上可用，但它不完整/损坏

对服务器执行 ping 操作后，返回结果为：“目标主机无法访问”

要使服务器再次运行，我们必须重新启动物理机。

有什么想法可能导致这种情况以及如何解决它？自构建新服务器以来，这种情况已经发生过 4 次，每次都是在将 20-30MB 的文件从服务器传输到集群时发生的。虽然我们每次传输这些文件时都不会发生这种情况，但这种情况发生的概率为 5%。

编辑：以下是 SSH 服务器不可用时的日志（来自 var/log/syslog）：

Sep 26 09:17:01 snail CRON[34116]: (root) CMD (   cd / && run-parts --report/etc/cron.hourly)
Sep 26 10:17:01 snail CRON[34137]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@Sep 26      12:36:14 snail rsyslogd: [origin software="rsyslogd" swVersion="7.4.4" x-pid="763" x-info="http:/     /www.rsyslog.com"] start
Sep 26 12:36:14 snail rsyslogd: rsyslogd's groupid changed to 104
Sep 26 12:36:14 snail rsyslogd: rsyslogd's userid changed to 101

服务器在 11:30 左右停止响应，我于 12:36 重新启动了它（物理上）；因此日志没有告诉我们 11:30 发生了什么

** 'snail' 是服务器的名称

相关内容