We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
随着Lmdeploy支持的模型越来越多,尤其是差异性极强的VLM。推理后端崩溃的现象变得也越来越难以避免,尤其是OOM等报错导致后端崩溃后,其并不会反映到服务端上。如果有一个方法能够检测后端引擎的状态,这样我就可以在healthy端点定时的检测服务的死活,并决定是否要重启服务。我想这一方法对于打算使用Lmdeploy部署长期服务的人非常有帮助。
The text was updated successfully, but these errors were encountered:
这是一个很好的提议。 这个特性会分几步来做: step 1: 完善推理引擎的异常处理流程。异常要上报,比如 OOM,而不能因异常而终止 step 2: 增加活性检测线程,监测推理线程的状态,判断是否有 hang 住的问题。上报服务状态 step 3: 提供查询接口,可以让调用方获取到服务状态 目前,有一些工作正在做 step 1
Sorry, something went wrong.
非常期待这一特性的实现。目前我们观测到的一个很容易出现的问题是VIT模型的OOM,这在InternVL动态分辨率以及不限制Qwen2VL图像尺寸的情况下会经常出现。猜测是由于LLM以及KV cache占据了绝大部分显存,当VIT处理过量patch时出现OOM,从而导致VIT模型掉线。但是这一行为并没有导致服务自动释放
lvhan028
No branches or pull requests
随着Lmdeploy支持的模型越来越多,尤其是差异性极强的VLM。推理后端崩溃的现象变得也越来越难以避免,尤其是OOM等报错导致后端崩溃后,其并不会反映到服务端上。如果有一个方法能够检测后端引擎的状态,这样我就可以在healthy端点定时的检测服务的死活,并决定是否要重启服务。我想这一方法对于打算使用Lmdeploy部署长期服务的人非常有帮助。
The text was updated successfully, but these errors were encountered: