我们的 ESX 上的一台服务器有问题。所有其他机器都正常运行,但这台机器不行。它是我们 ESX 上运行的唯一一台 Linux 服务器(所有其他机器都在 Windows 上运行),也是唯一出现此问题的服务器。
它是在 3 周前安装的,一直正常运行,直到上周四。从那天起,它开始随机断开与特定主机的连接。例如,我正在使用已安装软件上的 Web 界面和打开的 SSH 连接(用于查看日志)。突然,我的浏览器和 SSH 连接断开,显示“连接被拒绝”,我无法重新连接,尽管 ping 可以正常工作。对于我的同事来说,一切正常。后来我可以再次连接,但我的同事却不能。似乎只有 2-3 个人可以同时连接到服务器。
该服务器有一个静态 IP 地址,并且我们的 DNS(基于 Microsoft Active Directory)中有一个静态租约。
产品安装期间应用的配置:
ulimit -n 8800
echo "* soft stack 32768" >> /etc/security/limits.conf
echo "* hard stack 32768" >> /etc/security/limits.conf
echo "* soft nofile 65536" >> /etc/security/limits.conf
echo "* hard nofile 65536" >> /etc/security/limits.conf
echo "* soft nproc 16384" >> /etc/security/limits.conf
echo "* hard nproc 16384" >> /etc/security/limits.conf
防火墙已关闭(service firewalld stop
),但这没有改变任何东西。我在消息日志文件中没有看到任何内容。
已安装的软件:
- Cent OS 7
- IBM Business Process Server Advanced 8.5.6(基于 IBM WebSphere)
- IBM DB2 Express
我是一名具有基本网络和 Linux 知识的开发人员,但我对此没有什么想法。您建议我检查哪些日志?我该如何调试这个系统?
答案1
好吧,现有连接不能通过“连接被拒绝”来断开,很可能是“连接重置”。在中断期间,您尝试建立的新连接会发生什么情况 - 它会超时还是立即被拒绝?无论如何,对我来说,这种行为类似于与其他网络设备的 IP 地址冲突。