Closed
Description
- 解决当前运行时的错误。
- 解决推理精度问题[LLAMA系FP16精度问题已解决]。
- 使用内存池管理临时使用的dev或者host内存(buddy system)。还需要考虑及时释放已经使用完的内存(stream 同步时释放, dst重用时释放,需要优化成更优雅的方式),避免OOM。目前支持单卡,如果内存存在问题,考虑是否先同步运行。
- 自定义算子,使用模板减少重复代码。
- 接口中的alloc padding,tensor alloc等函数,重新审视下是否符合NPU的使用场景。
- 组合算子替换成融合算子,提高效率,提需求,包括要支持bs的mm算子。
- 对所有的代码完善文档,所有的函数完善注释。
- ollama适配,0代码0配置使用npu后端的ollama服务。
- 考虑q5_x量化的可行性。
- 模型运行过程中的精度对比,建议保留对比工具函数。
- 添加tensor自定义内存布局的测试用例。
- cont,dup,cpy算子统一。
- ascendc_rope_init_cache函数使用多核。
- kernel函数中param拷贝耗时长,需优化(加载模型时统一拷贝需考虑ne,nb在transpose/permute过程中改变的问题)
- 清理代码中的TODO。
- rope_init_cache函数param拷贝input_ne踩内存问题定位,后续使用tiling进行参数传递
- llama_kv_cache_update_internal()中进行k-shfit时存在问题,模型输出错误
- 算子异步发射
- 文档
- 多卡切图不正确,执行会卡住