我有一个为 ML 模型提供推理服务的 ec2 容器,需要将其缓存在内存中以避免冷启动。我们使用 LRU 缓存并根据查询参数选择模型。
随着容器规模扩大,我们的 ELB 会使用 RR 来转发流量,因此相同的模型最终会加载到每个服务器的缓存中。理想情况下,我们希望使用该路径始终将同一模型的请求转发到同一服务器。
我知道该如何手动执行此操作,但随着目标群体的扩大,规则需要进行调整。有没有办法为基于路径的路由提供某种哈希函数?
答案1
您可以为不同的模型设置单独的目标组。即每个实例/容器一个模型,并使用不同的 URL 路径来使用它们。还是我遗漏了什么?