我怀疑这可能是一个无法回答的问题,唯一的解决办法就是重建,但我还是会问。
昨晚,办公室 Smoothwall 防火墙上的一些内部进程停止了工作,并出现了以下外在迹象:
- 停止响应来自任一方的 SSH 和 HTTPS 连接尝试。没有拒绝它们,只是从未响应。
- 尝试登录控制台时挂起 - 输入用户名但提示从未返回密码
- 由于 squid 没有响应,客户端上网失败
所有“直通”流量都畅通无阻。即电子邮件、DNS、PPTP 等流量在两个方向上畅通无阻。到其他服务器的入站 HTTPS 也运行良好。从用户的角度来看,只有互联网浏览受到影响。由于这件事发生在办公时间之外,所以没人知道。我是通过 Nagios 警报才知道这件事的。
日志中绝对没有任何内容表明存在问题,事实上所有日志记录也同时停止。故障之前的日志中没有任何内容表明存在任何外部原因。按下重置按钮(唯一的选择,因为我无法登录)系统恢复正常,过去 4 小时内没有出现任何问题。
我正在寻找一些理论,这些理论可以解释为什么某些系统在没有警告的情况下发生故障,而对通过的流量没有明显的不利影响。也许比我更了解的人可以认识到故障部件的共同点。
答案1
听起来确实与硬件有关 - 系统处于活动状态(内核显然仍在进行 NAT),但许多进程却已停止 - 例如 SSH 和 squid,这种情况并不常见。我自己会怀疑磁盘 - 当我看到 Smoothies 做这种把戏时(我见过一些......一直在研究光滑墙超过 6 年!十有八九都是与磁盘有关的。
答案2
过去几天我一直遇到同样的问题。我正在运行 Smoothwall Express 3.0。每当我通过 torrent 下载大文件时,它就会锁定。我在支持论坛上看到,这可能是由于打开的连接太多,从而占满了所有 RAM 造成的。我尝试更改防火墙设置之一,以每 2 分钟关闭一次这些不活动的连接,而不是默认的每 2.5 小时关闭一次。这似乎在一段时间内有所帮助,但现在问题又出现了。这台机器是 500MHz,有 192MB 的 RAM。
无论问题是什么,系统都应该优雅地失败 - 而不是它当前正在做的事情。我想是时候尝试一些新的东西了。