我们公司已经使用低优先级节点很长时间了。时不时地,我们会遇到被抢占的节点,但我们的任务最终还是会运行。
我们有 1 个专用节点,并且我们扩展到 20 个低优先级节点。在过去 3 天中,扩展时没有创建任何低优先级节点。扩展显示它正在尝试设置更多节点,但它只是保持原样。
有没有什么解决方案?低优先级节点目前是否出现故障?
答案1
将低优先级 VM 与 Batch 结合使用
使用低优先级虚拟机的缺点是,这些虚拟机可能无法分配或者可能随时被抢占,具体取决于可用容量。
期望低优先级实例完全可用是不合理的。过剩容量可能不会无限期地存在。
首先检查状态仪表板和/或社交媒体。我没有看到有关 Batch 的问题报告。
在不同区域购买不同大小的实例。有时您最喜欢的大小的剩余量不足是本地的。
为必须完成的工作添加全价实例。
答案2
问题相当复杂,可能是 Azure Batch 中的一个错误。
团队中的某些人已将某些 VM 对象从资源组中删除。这导致低优先级 VM 无法启动,奇怪的是专用 VM 实际上可以正确启动。
我通过使用 VM 映像创建新 VM,然后创建新 IMAGE,并使用此新映像重新创建 Azure Batch 池来解决了这个问题。 重要的部分是不要删除 VM 对象。