我的数字海洋水滴在最近几天出现了一些意外关闭的情况。
droplet 已关闭,我必须再次打开它。如果系统请求关闭电源,则应该存在日志条目。但什么都没有。服务器日志显示正常流量,没有什么特别的,然后系统突然关闭。从我的角度来看,这看起来像是真实硬件上的电源故障,无法捕获所有内容。在内核崩溃时,系统应该执行重新启动而不是关闭电源。我使用 sysctl debug.kdb.panic=1 尝试此行为
我写信给支持团队,但他们回复说我的客户请求关闭,虚拟机管理程序和在其上运行的其他系统一切正常。所以他们拒绝了我将 droplet 移至另一个虚拟机管理程序的请求。
目前我还没有关于未来调查的想法。
系统和服务:
- 带有 ZFS 的 FreeBSD
- PF
- NginX
- uWSGI
- sshd
- autossh tunel 到另一台机器
- munin 节点 + 主节点
我的日志文件中什么都没有,而且“最后”没有显示请求的关闭。下面您将找到 /var/log/messages 中之前和之后的最后一条日志行
我希望你有一些想法
谢谢
-> % last | grep shutdown
shutdown time Tue Dec 5 09:16
monocult pts/1 xxx Tue Dec 5 09:14 - shutdown (00:02)
monocult pts/0 xxx Tue Dec 5 08:36 - shutdown (00:40)
shutdown time Sat Dec 2 13:48
monocult pts/0 xxx Sat Dec 2 13:46 - shutdown (00:01)
Dec 1 21:39:56 application-server sshd[1987]: error: maximum authentication attempts exceeded for invalid user root from xxx port 45166 ssh2 [preauth]
Dec 2 13:46:13 application-server syslogd: kernel boot file is /boot/kernel/kernel
Dec 5 00:42:33 application-server sshd[68482]: error: maximum authentication attempts exceeded for invalid user root from xxx port 52546 ssh2 [preauth]
Dec 5 08:34:26 application-server syslogd: kernel boot file is /boot/kernel/kernel
答案1
我没有足够的声誉来发表评论,但我想补充一下你的帖子,说我也有同样的经历。发生在 12 月 18 日上午 10:13 UTC。
即使在向支持部门发送了无数封电子邮件之后,他们仍然报告说他们那边一切都很好,但我的 droplet 看起来像是电源被从墙上拔了。日志中没有任何显示关闭的请求,无论是 DO 仪表板还是操作系统内部。如果这有助于缩小问题范围并可能找到共同点,我正在我的 droplet 上运行以下命令:
- 后缀
- 多夫科特
- 埃兹贾伊尔
- 普法
- Nginx(x3)
- PHP(x2)
- 数据库
- openVPN(x2)
- Quagga ospf 和 zebra
- Nagios NRPE(x5)
- SSHd(x5)
该 droplet 还运行带有 ZFS 和 100GB 块存储的 FreeBSD 11.1 x64。
支持人员表示,除非问题可重现,否则他们无能为力。如果您认为整合我们的支持案例会对 DigitalOcean 有所帮助,我很乐意与您交换详细信息?
再说一次,我知道这不是答案,我也不是想劫持你的帖子,只是想支持你的经验的有效性。
答案2
通过 smartmontools 检查磁盘,95% 的问题都出在那里