是否可以提供一个用来监控异步引擎死活的方法 #2895

ghntd · 2024-12-13T13:37:24Z

随着Lmdeploy支持的模型越来越多，尤其是差异性极强的VLM。推理后端崩溃的现象变得也越来越难以避免，尤其是OOM等报错导致后端崩溃后，其并不会反映到服务端上。如果有一个方法能够检测后端引擎的状态，这样我就可以在healthy端点定时的检测服务的死活，并决定是否要重启服务。我想这一方法对于打算使用Lmdeploy部署长期服务的人非常有帮助。

lvhan028 · 2024-12-17T08:17:44Z

这是一个很好的提议。
这个特性会分几步来做：
step 1: 完善推理引擎的异常处理流程。异常要上报，比如 OOM，而不能因异常而终止
step 2: 增加活性检测线程，监测推理线程的状态，判断是否有 hang 住的问题。上报服务状态
step 3: 提供查询接口，可以让调用方获取到服务状态
目前，有一些工作正在做 step 1

ghntd · 2024-12-17T08:45:20Z

非常期待这一特性的实现。目前我们观测到的一个很容易出现的问题是VIT模型的OOM，这在InternVL动态分辨率以及不限制Qwen2VL图像尺寸的情况下会经常出现。猜测是由于LLM以及KV cache占据了绝大部分显存，当VIT处理过量patch时出现OOM，从而导致VIT模型掉线。但是这一行为并没有导致服务自动释放

lvhan028 self-assigned this Dec 17, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

是否可以提供一个用来监控异步引擎死活的方法 #2895

是否可以提供一个用来监控异步引擎死活的方法 #2895

ghntd commented Dec 13, 2024

lvhan028 commented Dec 17, 2024

ghntd commented Dec 17, 2024

是否可以提供一个用来监控异步引擎死活的方法 #2895

是否可以提供一个用来监控异步引擎死活的方法 #2895

Comments

ghntd commented Dec 13, 2024

lvhan028 commented Dec 17, 2024

ghntd commented Dec 17, 2024