playground推理过慢 #42

nieallen · 2023-04-12T03:23:47Z

请问playground每次generate都要加载一次模型？怎么改可以使速度变快一些呢？

HarderThenHarder · 2023-04-12T06:21:41Z

Hi，正常来讲当前 playground 应该只会加载一次模型，只有在刷新页面的时候才会重新加载模型。

我在这里进行了模型的缓存，只有当刷新页面（清除缓存）后才会重新加载。

生成速度慢可能有两个原因：

要求模型生成的文本过长，这将会延长模型推理时间。
使用 LoRA 加载，而非原始模型加载，这也可能会小部分影响推理时延。您可以使用最新的代码训练模型，模型在保存时将会保存为原始模型的结构（而非 LoRA Adaptor）。

nieallen · 2023-04-12T09:40:24Z

感谢，已解决。请问后面会实现一下基于bloom或者glm的sft训练代码吗？

Provide feedback