Hetzner 服务器崩溃时间?

Hetzner 服务器崩溃时间?

有谁注意到 Hetzner 的大多数服务器崩溃都发生在大约 8:00 GMT+3 时间?例如这里 上个月此时的情况:

  1. docker“分段错误”

  2. 两个接口上的网络连接都中断

  3. 服务器节点发生故障,而我们的虚拟服务器仍在其上

  4. kworker 进程导致 CPU 使用率达到 100%

它能与什么连接?神秘还是某种云问题?

答案1

无能还是糟糕的 SLA?

让我们从糟糕的 SLA 开始。一分钱一分货 - 阅读文件。他们保证高正常运行时间吗?可能只是在他们的停机时间(基本上是凌晨)他们会进行一些基础设施重置。现在,这通常不需要,但嘿,谁知道呢。

无能。修补等不应该重置服务器,并且两个网络连接都断开意味着它们是相同的物理连接(并且您在虚拟机之外没有两个连接)或者有人决定一次重置多个实例,这将是无能的 - 您设置了一个冗余基础设施,然后一次重置所有内容。

核心事实是“不是你的云,不是你的基础设施”在这里适用。如果无法访问物理层,你根本不知道为什么会发生这种情况,也无法处理任何事情。我建议打开支持票,因为那里的人确实可以访问物理层。在这个时代,除非发生疯狂的事情(即缺陷),否则虚拟化的正常运行时间应该为 100%。修补?将虚拟机的生命周期转移到另一个实例。进行滚动升级(即一次从集群中取出一台服务器)。以不发生故障的方式重置和更新网络(即冗余硬件,更新一个,等待,然后更新其他)。您仍然无法有效地获得 100% 的正常运行时间,但任何停机时间都应归因于非标准操作。

现在,如果您“拥有”服务器节点 - 那么基本上这是您的错,因为没有任何冗余和/或没有向相关部门开具票据,因为是的,这可能是硬件缺陷 - 经历过,见过。再说一遍,不是您的计算机,不是您的访问权限 - 您需要他们的技术人员在现场。

相关内容