-
Notifications
You must be signed in to change notification settings - Fork 7
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
量化后推理速度 #4
Comments
请问你使用的是什么模型呢,是和transformers库做对比吗? |
我参照你的代码改写了qwen的int8推理模型,测试的是qwen的模型,对比的是transformers库,推理的时候batchsize是1,这样子对比int8的推理会比transformers库慢。 |
我们测试下来cublas的gemm速度比torch_int的gemm稍微快一些。请问你现在使用的是什么粒度的量化呢? 如果使用per-token量化是会比per-tensor慢一些的。 torch_int仓库应该默认使用per-tensor量化的。 |
pertensor和pertoken的我都试过了,我这边测试用的opencompass,测试的是winogrande和siqa这两个数据集,用的单卡3090 |
好的。我们本周在进行mixtral等新模型的支持。随后会尽快排查一下这个问题。 |
好的,我这边也会一直更进这个问题,感谢 |
你好,请问你是按照什么代码去改写的qwen的int8量化与推理?我也想尝试量化qwen或者其他模型,但是看到autosmoothquant/models里有四种模型的文件,如果我想测评这四种以外的模型,我该如何参考代码去改写呢?非常期待您的回复!!!感谢!!! |
量化完后推理速度反而变慢了,难道不应该加速吗
The text was updated successfully, but these errors were encountered: