outage

如何检查导致我的局域网短暂停电的故障设备?
outage

如何检查导致我的局域网短暂停电的故障设备?

我们只需将接入点与 LAN 断开即可解决由接入点损坏引起的问题。 我们遇到的症状是,我们的整个网络会不时地“卡住”几秒钟。这意味着在网络通话期间,声音和视频会短暂冻结,然后继续正常播放,网站加载会有短暂的延迟,很少会超时,然后刷新时会正常加载。有线和 WiFi 连接的客户端都没有出现任何连接问题,但两者遇到的问题方式相同。 设备本身和连接到它的所有监控工具均未显示任何问题,并且所有健康检查均为绿色。 是否存在一种通用的、与供应商无关的方法来检测网络中可能导致这些问题的故障设备? ...

Admin

作为运营团队,您使用什么工具来衡量您的 MTTR?
outage

作为运营团队,您使用什么工具来衡量您的 MTTR?

你测量过它吗? 我的问题是,当出现中断警报时,首先创建 JIRA 票证会感觉很浪费时间,所以我立即开始解决它。此外,一些中断首先通过变通方法解决,然后重新审视以正确解决它们。 ...

Admin

追踪网络不稳定的根源
outage

追踪网络不稳定的根源

如果问题发生,则发生在上午 10 点,从开始到恢复稳定大约持续 1 分钟。这种情况并不是每天都会发生。在这一分钟内,ping 值会急剧上升,数据包开始丢失,然后 ping 值稳定下来,数据包停止丢失,一切又恢复正常。这种情况发生在我们的 wifi 上,以至于 wifi 用户实际上失去了互联网连接,有线网络上可以看到问题的迹象,但不会对人们真正注意到的程度产生影响。我们有来自不同提供商的双互联网连接,以循环方式配置,它似乎并不关心我们在使用哪个提供商。 我们通过 IT 的自动化流程进行了审计,没有发现任何在上午 10 点运行的程序。我们尝试过监视网络,但我们的...

Admin

当启用/禁用集群功能时,GKE 集群是否会出现停机?
outage

当启用/禁用集群功能时,GKE 集群是否会出现停机?

我想为只有一个节点的区域 GKE 集群启用云操作。我阅读了 Google 的大量指南,但没有找到任何关于禁用/启用集群功能时发生中断的说明。指南仅包含如何启用/禁用功能。有人知道这个主题吗? ...

Admin

为什么 dovecot pop3/imap 服务器宕机了?
outage

为什么 dovecot pop3/imap 服务器宕机了?

VPS 在某个时候宕机了,我正在查看日志,但不明白为什么会宕机以及如何修复它以避免将来再次发生宕机。 我在事件发生时所掌握的日志如下: - Feb 04 16:16:41 imap([email protected]): Info: Connection closed (EXAMINE finished 0.078 secs ago) in=290 out=4306 - Feb 04 16:18:25 auth: Error: passwd-file(webadmin,141.98.10.183): stat(/etc/exim/domains//...

Admin

有什么方法可以了解我面临的服务器停机类型吗?
outage

有什么方法可以了解我面临的服务器停机类型吗?

我有一台远程服务器,无需 24x7 全天候值守。但有时我会因为网络相关问题或断电而遇到停机。 但因为我离服务器很远,所以无法在停机时确定是因断电导致的处理时间损失还是网络断开。因此,在这两种情况下,我都无法通过 SSH 进入我的服务器。 只有在几个小时后,当服务器重新连接或重新启动时,我才知道出了什么问题。 有什么方法可以让我了解我面临的停机类型?例如,如果网络停机,可能会有一个应用程序向我发送短信警报。但我猜它仍然需要互联网才能工作。 任何建议都会对此有帮助。 ...

Admin

断电后 DHCP 活动异常
outage

断电后 DHCP 活动异常

在假期周末,我们的一位客户遭遇了停电。当一切恢复正常时,大多数设备似乎都正常,但有些设备(我们的一台 ESXi 主机和一些 VDI)无法获取正确的 IP 地址。它们从 Windows 获取了 169 APIPA。我查看了 DHCP 日志,从停电发生时起,租约或续订次数为 0。DHCP 好像整个周末都处于闲置状态。 我将其退回,突然之间,所有租约都开始涌入,所有获得 APIPA 的东西都获得了正常地址,一切都恢复正常。 我的问题是:DHCP 中是否存在某种设置导致其出现这种情况?我觉得硬中断不会破坏 DHCP,尤其是在重新启动时。 我想弄清楚发生了什么,以便如...

Admin

我可以在哪里获取跨洋电缆(和其他一级光纤主干网)的中断更新/警报?
outage

我可以在哪里获取跨洋电缆(和其他一级光纤主干网)的中断更新/警报?

是否有某个网站可以汇总管理跨洋光缆的公司的状态更新,以便我可以半实时地了解全球互联网中断的情况,这些中断会中断数百万用户在各大洲之间的连接? 每年我都会遇到几次由于数据包丢失而无法使用的网络,而traceroute问题并不出在: 在我的笔记本电脑和 WAN 调制解调器之间 在我的 WAN 调制解调器和通过 ISP 网络的接下来几个跳数之间 但问题似乎出在我的 ISP 下游的其他管道上,其 DNS 显示它由一级提供商运营,例如 Level3.net(Lumen Technologies)。 此外,仅在使用 10%-30% 左右的互联网时才会检测到数据包丢失...

Admin

Ubuntu 辅助 IP 在几小时后丢失
outage

Ubuntu 辅助 IP 在几小时后丢失

我在 VPS 上运行 Ubuntu 18.10。 自从从 16.04 升级(我很确定)以来,我的辅助 IP 地址在启动几个小时后就停止接收流量。 我会对我的主 IP 和辅助 IP 执行两次 ping,辅助 IP 会在大约 3 到 4 小时后自动关闭。 发生这种情况时,其接口eth0仍将显示为<UP>。ifconfig -aAnmtr将一直到达其网关。 重启后 IP 恢复正常,可以访问。没有其他问题。没有ifdown eth0 --force && ifup eth0,没有service networking restart...

Admin

交换机间歇性掉线
outage

交换机间歇性掉线

我有一个带有 7 个 48 端口交换机(Ubiquiti ES-48-500W)的实验室环境。 它们都通过光纤连接到 3 台 16 端口聚合交换机(Ubiquiti ES-16-XG)。 所有交换机都是全新的,都放在同一个房间。光纤模块和光纤电缆都是全新的。 接入该网络的计算机只有: 一个带有 DNS 的 Windows 2016 Server 域控制器(但没有互联网访问) 一个运行 UNMS(Ubiquiti 的免费交换机管理软件)的 Linux VM 一个运行第三方程序(名为 EMCO Ping Monitor)的 Windows 10 工作站...

Admin

Kafka 集群:应对网络中断
outage

Kafka 集群:应对网络中断

我们有一个 kafka 集群。还有一个网络。是的。由于维护需要,我们数据中心的所有机架上的网络将在 5-10 分钟内不可用(!)。我担心这个中断时间太长,kafka 无法妥善处理,而且它可能会开始对自己的状态感到困惑,以至于一旦网络恢复在线,它就无法恢复。 关闭集群是一个好主意吗?如果是的话,让所有代理离线的最佳方法是什么? 它是一个 kafka 0.10.0 集群,运行在数据中心不同机架分布的 6 个节点上。 ...

Admin

电力中断导致 6 台 UPS 中有 4 台停机
outage

电力中断导致 6 台 UPS 中有 4 台停机

我们最近在其中一栋大楼里停电了 1-2 秒。这栋大楼里有 6 台 UPS,其中 4 台在停电期间/之后坏了,所有服务器都断电了。每台 UPS 只连接 1 台服务器。UPS 的额定功率为 600W。而最大的服务器在满负荷时最多使用 500W。 我绝不是 UPS 或电力方面的专家。但我们认为有了这台 UPS,我们就可以解决问题,也认为我们有一些开销。然而,这对我们来说几乎是当头一棒。 这 4 台 UPS 损坏的可能原因有哪些? 我们使用的UPS是APC Smart-UPS 1000VA。 ...

Admin

外部监控显示多个区域和服务类型出现中断。Azure 显示未出现中断
outage

外部监控显示多个区域和服务类型出现中断。Azure 显示未出现中断

我正在使用一项名为 Monitis 的服务来监控我的一些基于 Web 的资源的正常运行时间。基本上,它会从三个地理位置(美国西部、美国东部和美国中部)对我的资源进行 ping,如果其中两个或多个资源的 ping 时间在较长时间内超过 10 秒,就会发出警报。 周六,我的三个资源(全部位于 Azure)同时从三个 ping 位置记录到了 18 分钟的中断: (以上时间为日本时区。相当于 10 月 21 日太平洋时间凌晨 4:10-4:28) 其中, [绿色] 是两个相同 Web 应用程序的主机名,一个位于美国西部,一个位于美国东部,使用流量管理器进行平衡...

Admin

断电后 Windows Server 2012
outage

断电后 Windows Server 2012

停电后,服务器正常重启。服务器是酒店的数据库服务器,通过光纤连接到 ISP。重启时,网络变为公共网络,而不是默认的专用网络。不得不拆除防火墙。无法 ping 通外部和内部。 下次停电时,我该如何避免这种情况?提前谢谢大家,希望我提供的信息足够多。 ...

Admin

如何调查服务器中断?
outage

如何调查服务器中断?

我知道,这个问题有点笼统,但我真的无法更具体,因为我根本不知道发生了什么: 现在已经发生过两次(一次在我们的实时服务器上,一次在我们的测试服务器上),响应变得完全没有响应。我无法在任何浏览器中访问我们的网站,也无法通过 SSH 连接,我得到的只是Connection closed by remote host。我必须使用 hetzner 的 web-tool 进行硬重置以管理服务器。这是我让服务器再次可访问的唯一方法。软重置(hetzner 说相当于发送 ctrl+alt+del)根本没有效果。进行硬重置后,我可以再次通过 SSH 登录,网站恢复正常。 ...

Admin