Google Compute 服务器不断掉线,不知道原因

Google Compute 服务器不断掉线,不知道原因

就在今天,我设置了一个 Google Cloud Compute 实例来运行我的网络服务器,该服务器是我刚刚从另一家 VPS 供应商那里转移过来的,我对这家供应商的体验非常不好。

每隔一段时间(从今天早上开始大概有 3 或 4 次),Google 服务器就会从外部无法访问。通常我可以 ping 它,从 Cox Cable 地址 ssh 到它,并通过 http 从它获取网页。当它出现问题时,我无法执行以下任何一项操作:ping 会丢失 100% 的数据包,ssh 会挂起(并且现有的 ssh 连接会断开),并且 Web 浏览器中的 http 也会挂起。

更奇怪的是,在问题发生期间,如果我从 google 的 Web 界面 ssh 到 VPS,我可以登录并 ping google 的域名服务器 8.8.8.8,也可以 ping 到 www.yahoo.com。因此,只有传入流量有问题,传出流量没有问题。

有点像是 IP 地址冲突,但只是外部 IP 冲突,内部 IP 不冲突。但我很难相信这可能是问题所在。

我只以一种方式改变了防火墙:我添加了一条防火墙规则以允许 http。

外部IP是34.94.223.166

有人能告诉我怎样才能让事情变得更可靠吗?


在上次活动期间,系统停机了大约一个小时。

查看上次事件期间的 /var/log/syslog*,没有什么有趣的东西 - 尽管消息没有停止。

答案1

可能是任何数量的性能或可用性问题。确定何时发生这种情况,是否所有服务都中断,或者仅互联网上的某些路由中断。

需要监控您的实例才能发现问题。阅读您的日志文件。

由于您使用 GCP,请考虑使用 Stackdriver。Stackdriver 代理捕获实例指标,可以监控 Apache httpd 或 nginx,并可以提取系统日志。

停机检测,尝试从尽可能多的 ISP 访问它,例如从其他云中的实例访问。手动或使用监控服务。仅一个无法区分一个提供商有问题还是您的服务已停机。

负载均衡器可实现超过一个实例的高可用性。但是,您可能希望首先使用一个实例来完善您的监控流程。

相关内容