Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

是否可以提供一个用来监控异步引擎死活的方法 #2895

Open
ghntd opened this issue Dec 13, 2024 · 2 comments
Open

是否可以提供一个用来监控异步引擎死活的方法 #2895

ghntd opened this issue Dec 13, 2024 · 2 comments
Assignees

Comments

@ghntd
Copy link
Contributor

ghntd commented Dec 13, 2024

随着Lmdeploy支持的模型越来越多,尤其是差异性极强的VLM。推理后端崩溃的现象变得也越来越难以避免,尤其是OOM等报错导致后端崩溃后,其并不会反映到服务端上。如果有一个方法能够检测后端引擎的状态,这样我就可以在healthy端点定时的检测服务的死活,并决定是否要重启服务。我想这一方法对于打算使用Lmdeploy部署长期服务的人非常有帮助。

@lvhan028 lvhan028 self-assigned this Dec 17, 2024
@lvhan028
Copy link
Collaborator

这是一个很好的提议。
这个特性会分几步来做:
step 1: 完善推理引擎的异常处理流程。异常要上报,比如 OOM,而不能因异常而终止
step 2: 增加活性检测线程,监测推理线程的状态,判断是否有 hang 住的问题。上报服务状态
step 3: 提供查询接口,可以让调用方获取到服务状态
目前,有一些工作正在做 step 1

@ghntd
Copy link
Contributor Author

ghntd commented Dec 17, 2024

非常期待这一特性的实现。目前我们观测到的一个很容易出现的问题是VIT模型的OOM,这在InternVL动态分辨率以及不限制Qwen2VL图像尺寸的情况下会经常出现。猜测是由于LLM以及KV cache占据了绝大部分显存,当VIT处理过量patch时出现OOM,从而导致VIT模型掉线。但是这一行为并没有导致服务自动释放

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants