我在一家大公司工作,我们使用许多旧系统。请注意以下系统:HP-UX 10.20、Windows 2000、VMEBus 系统、30 多年前设计的不通过 TCP/IP 协议通信的系统等等。
在整个工作周中,我们不断受到这些遗留系统彼此失去通信的困扰。通常,重启系统以尝试恢复通信是最后一种方法。人们普遍认为,重启系统只是无知同事的“万能药”。我想知道,重启系统(无论是否是遗留系统)来恢复故障的通信线路是否有效?
我知道在 Windows 中更新 IP 地址应该可以有效恢复网络通信;但底层操作系统中是否存在更深层次的问题,可能会损坏并需要重新启动?失败的套接字超时、无法关闭或可能无法尝试重新连接?
在我看来,当系统网络如此复杂且不匹配时,重启是一种可行的解决方案。但是(至少在我的工作场所)当系统重启后,一切奇迹般地重新开始工作,这总是一个“巧合”;永远不是一个解决方案。你觉得呢?
答案1
答案是“视情况而定”。
重新启动可以解决问题,或者通过提供更好的日志记录或更容易观察到的问题来更容易地检测问题。(嗯……重新启动不应该花 10 分钟)
然而,将重启作为标准故障排除技术是一种不好的做法。需要有人了解事物断开的方式,以便您可以分类、隔离故障组件并开始解决问题。
我不想这么说,但了解 ITIL 之类的东西可能会很有用,尤其是事件和问题管理。它可能会帮助你或你的管理层重组你的支持系统,使其真正以合理的方式运作。
答案2
是的,“重启,如果仍然无法正常工作,请打电话给我”通常是系统管理员或服务台人员在束手无策时排除故障的第一道防线。我也会使用这种方法,但告诉某人重启服务器与让用户重启工作站完全不同,当然这取决于服务器的用途。
我不想给出这个建议,但从务实的角度来说,有时对于真正的遗留系统,你无权更换,如果重新启动可以解决问题,那么最好根据需要进行操作并努力证明升级的合理性,而不是不必要地延长停机时间。
答案3
我认为,在尝试教育人们时,首先要采取干扰最少的途径。
正如您所说,重新启动应该是最后一个选择。
因此,最不具侵入性的做法更像是, - 重新启动通信服务 - 重新启动应用程序服务 - 重新启动应用程序的通信层(如果存在) - 等等
这不仅适用于旧系统,也适用于任何故障排除。总有一天,其中一个系统将无法恢复。
通过循环系统的不同部分,这也许可以让您找到导致故障的真正原因,并且由于无需进行整个重启,因此可以更快地进行修复。
答案4
由于您的问题涉及多个操作系统,因此不可能有一个正确答案。
对于 Windows 2000 系统,我可以这么说:我运行过数千个系统,但只记得少数通信失败且系统没有完全挂起的情况。通常,简单地禁用/重新启用无法通信的 NIC 即可解决此问题,然后更新驱动程序和/或用更简单的程序替换 NIC。
(换句话说,我只在旧的、有缺陷的驱动程序和/或非品牌 NIC 上看到过它。)