MindSpeed RL:基于昇腾生态的强化学习加速框架,旨在为华为 昇腾芯片 生态合作伙伴提供端到端的RL训推解决方案,支持超大昇腾集群训推共卡/分离部署、多模型异步流水调度、训推异构切分通信等核心加速能力。
🚀🚀🚀 2025.11 MindSpeed RL 已支持agent rl多轮迭代训练 !!!🚀🚀🚀
MindSpeed RL依赖配套如下表:
| 依赖软件 | 版本 |
|---|---|
| 昇腾NPU驱动 | 在研版本 |
| 昇腾NPU固件 | |
| Toolkit(开发套件) | 在研版本 |
| Kernel(算子包) | |
| NNAL(Ascend Transformer Boost加速库) | |
| Python | PyTorch与Python版本配套表 |
| PyTorch | 2.5 |
| torch_npu插件 | 在研版本 |
| apex |
更多详情请参考版本配套表。
MindSpeed RL具体的安装请参考安装指南。
快速在昇腾训练设备上运行 MindSpeed RL可详见快速入门。
| 训练算法 | 训练指南 | 支持模型 | 发布状态 |
|---|---|---|---|
| GRPO | Doc |
Qwen2.5-7B Qwen2.5-32B |
Released |
| Doc |
Qwen2.5VL-3B Qwen2.5VL-7B Qwen2.5VL-32B |
Released | |
| Doc |
Qwen3-8B Qwen3-235B-A22B DeepSeek-R1-671B |
Preview | |
| DAPO | Doc |
Qwen2.5-32B Qwen3-30B-A3B Qwen3-32B |
Preview |
| PPO | Doc |
Qwen2.5-32B |
Preview |
| DPO | Doc |
Qwen3-30B-A3B |
Preview |
注意:使用Ray拉起任务的算法,如GRPO,环境变量需要在runtime_env.yaml处配置。
| 核心特性 | 特性指南 | 适用算法 | 发布状态 |
|---|---|---|---|
| 训推共卡 | Doc |
GRPO DAPO PPO |
Released |
| 数据调度 | Doc |
GRPO DAPO PPO |
Preview |
| 权重重切分 | Doc |
GRPO DAPO PPO |
Preview |
| 填充移除 | Doc |
GRPO DAPO PPO |
Preview |
| 长序列并行 | Doc |
GRPO DAPO PPO DPO |
Preview |
| Partial Rollout | Doc |
GRPO |
Preview |
| 工具特性 | 特性指南 | 适用算法 | 发布状态 |
|---|---|---|---|
| 训练监控 | Doc |
GRPO DAPO PPO DPO |
Preview |
| 性能调优 | Doc |
GRPO DAPO PPO DPO |
Preview |
| 精度分析 | Doc |
GRPO DAPO PPO |
Preview |
| 确定性计算 | Doc |
GRPO DAPO PPO DPO |
Preview |
MindSpeed RL版本有以下五个维护阶段:
| 状态 | 时间 | 说明 |
|---|---|---|
| 计划 | 1—3 个月 | 计划特性 |
| 开发 | 3 个月 | 开发特性 |
| 维护 | 6-12 个月 | 合入所有已解决的问题并发布版本,针对不同的MindSpeed RL版本采取不同的维护策略,常规版本和长期支持版本维护周期分别为6个月和12个月 |
| 无维护 | 0—3 个月 | 合入所有已解决的问题,无专职维护人员,无版本发布 |
| 生命周期终止(EOL) | N/A | 分支不再接受任何修改 |
MindSpeed RL已发布版本维护策略:
| MindSpeed RL版本 | 对应标签 | 维护策略 | 当前状态 | 发布时间 | 后续状态 | EOL日期 |
|---|---|---|---|---|---|---|
| 2.2.0 | \ | 正式版本 | 商用 | \ | \ | 2026/03/30 |
| 2.1.0 | \ | 正式版本 | 商用 | \ | \ | 2025/12/30 |
| 2.0.0 | \ | 预览版本 | 预览 | \ | \ | 2025/9/30 |
- MindSpeed RL提供的模型仅供您用于非商业目的。
- 对于各模型,MindSpeed RL平台仅提示性地向您建议可用于训练的数据集,华为不提供任何数据集,如您使用这些数据集进行训练,请您特别注意应遵守对应数据集的License,如您因使用数据集而产生侵权纠纷,华为不承担任何责任。
- 如您在使用MindSpeed RL模型过程中,发现任何问题(包括但不限于功能问题、合规问题),请在gitcode提交issue,我们将及时审视并解决。
- MindSpeed功能依赖的Megatron等第三方开源软件,均由第三方社区提供和维护,因第三方开源软件导致的问题的修复依赖相关社区的贡献和反馈。您应理解,MindSpeed仓库不保证对第三方开源软件本身的问题进行修复,也不保证会测试、纠正所有第三方开源软件的漏洞和错误。
如果您不希望您的数据集在MindSpeed RL中的模型被提及,或希望更新MindSpeed RL中的模型关于您的数据集的描述,请在gitcode提交issue,我们将根据您的issue要求删除或更新您的数据集描述。衷心感谢您对MindSpeed RL的理解和贡献。
Ascend MindSpeed RL提供的模型,如模型目录下存在License的,以该License为准。如模型目录下不存在License的,以Apache 2.0许可证许可,对应许可证文本可查阅Ascend MindSpeed RL根目录。
MindSpeed RL由华为公司的下列部门以及昇腾生态合作伙伴联合贡献 :
华为公司:
- 计算产品线
- 2012实验室
- 公共开发部
- 全球技术服务部
- 华为云计算
生态合作伙伴:
- 工商银行大数据与人工智能实验室
感谢来自社区的每一个PR,共同打造业界领先的RL训推系统。
