我们有一个通过 kolla/docker 容器设置的 Openstack Pike 系统(6 台服务器)。最近,由于计划内停电,我们不得不重启系统,但我们成功让系统恢复运行。几个月后,我们开始遇到问题,集群中一台服务器上的任何磁盘活动都出现问题。我们无法在其上创建任何新的 VM,也无法删除或重建位于此服务器上的任何实例。经过研究,我们通过 gui 系统->系统信息->块存储服务发现,此服务器 cinder-volume 和 cinder-backup 卡在 DOWN 状态,但查看每个 docker 容器时,它们似乎都正常运行。每个容器的日志都没有错误,似乎运行正常。我们尝试重启该服务器上的 cinder-volume 和 cinder-backup 容器,但这并没有改变 gui 报告,报告仍然显示它们处于 DOWN 状态。
有人对我们可以做些什么来纠正这种状况有什么建议吗?我对 Openstack 和 Cinder 所做的所有研究似乎都没有找到任何相关的东西。欢迎提出任何建议。谢谢。
答案1
今天我们有机会关闭服务器并尝试修复该问题。我们注意到 6 台服务器中有 3 台使用不同的 NTP 服务器来设置系统时间。当我们更新所有 6 台服务器以使用相同的 NTP 服务器时,Cinder 卷会立即恢复为 UP 状态,一切就绪。这里学到的教训是,所有服务器都必须使用相同的 ntp 时间,因为服务器之间的任何时间漂移都可能导致错误,例如 Cinder 卷无法正常工作。