网络服务器/服务是否更容易在工作时间以外出现故障?

网络服务器/服务是否更容易在工作时间以外出现故障?

我刚刚在周日早上 4:59 遇到了一次服务器中断,查看自 2006 年以来的正常运行时间记录,除 4 次中断外,其余所有中断都发生在晚上 11 点到早上 6 点之间。(仅查看 Web 和数据库服务器上的计划外停机,而不是内部 LAN 上的应用服务器。)

其他人是否也发现他们的服务器有类似的行为?这只是一个意外吗?

编辑:这是因为在晚上 11 点到早上 6 点之间发生了如此多的中断(这些是计划外的,不是预定的维护,并且发生在我们的硬件上,而不是 ISP 的网络上),这让我怀疑这是否只是我们......

就访客数量而言,服务器最繁忙的时间是下午 1 点到晚上 10 点左右,而数据库备份则全天进行,大型备份(压缩会占用更多 CPU)每天早上 4:30 左右进行。但在此期间的任何时候都可能发生中断(而且这 20 次中断发生在 5 台服务器中的 1 台或 2 个防火墙上 - 其中约三分之一是由于 2 台不同机器的硬盘驱动器出现故障)。没有任何迹象表明服务器正在做某事,特别是因为当时是凌晨。

答案1

典型的“工作时间”是每周不超过 40 小时。世界上有些地方的工作时间更少。一周总共 168 小时。40/168 = 一周中不到 24% 的时间是“工作时间”。

这意味着,全天候运行的系统在非工作时间内发生故障的频率是工作时间内的 3 倍。

显然,还有很多其他的考虑因素需要考虑,例如多班次、高峰时段(对许多人来说,这可能会进一步导致非工作时间的故障)等等。

答案2

是的,我们找到了,不,这不是侥幸。我敢肯定,你的服务器讨厌你。我知道我的服务器讨厌我,虽然他们很高兴看到我死掉,但如果他们觉得自己累了,我敢肯定他们会坚持到他们的 ntp 守护进程在他们耳边低语,现在是半夜,现在是死的好时机。他们知道在 10:30 失败会毁了我的一天,但在 03:45 失败会毁了我的夜晚,把我拖到黑暗中的伦敦,也毁了我的第二天。他们喜欢这样。

由于硬盘驱动器故障,公司防火墙在我最不方便的时候失效了,之后我将磁盘控制器板从硬盘驱动器上拆下来,将其切成四块,然后戴上(现在仍然戴着)四分之一的电路板,就像头皮一样,挂在我的“办公链”(挂着我在各个站点使用的各种访问令牌的挂绳)上。我敢肯定,从此以后,看到这个可怕的遗物,它的兄弟姐妹服务器就基本守规矩了,因为故障的惩罚就这么清晰地显示出来。

(如果有人失去幽默感,那么这篇文章只是一个玩笑;除了关于 HDD 控制器的部分,这是绝对正确的,并且有效。)

答案3

晚上 11 点到早上 6 点之间似乎是夜间 cron 作业运行的典型时间。也许其中一些作业会给您的服务器带来一些额外的压力,从而增加此时发生待处理故障的风险。

答案4

在过去的 3 个月里,我的一台 Voip 服务器死机了。死机可能不是最恰当的词,因为机器在内核崩溃后可以启动。通常,机器会在早上 7 点到晚上 7 点之间正常运行。然后,在 1-30 天的随机间隔内,当我早上 7 点回到办公室时,它会被锁定并在系统控制台上无响应。

这种情况反复出现大约 12 次后……通常发生在晚上 11 点到早上 7 点之间,我们确定是主板故障,具体来说,是电容器的问题。我想我在某处读到过,极端温度会加速这种故障。我想我的小办公室并不罕见,但我通常允许温度在非工作时间波动到 75 华氏度以上 15 华氏度和以下 20 华氏度。因此,我认为,不使用冷藏数据中心的小型运营很可能在凌晨时分遭受温度引起的故障。

我记得,在我们早上开店前的 8 个小时里,日志总是出现故障——总是如此。

相关内容