TODO List

- [x] 解决当前运行时的错误。
- [x] 解决推理精度问题[LLAMA系FP16精度问题已解决]。
- [x] 使用内存池管理临时使用的dev或者host内存（buddy system）。还需要考虑及时释放已经使用完的内存（stream 同步时释放， dst重用时释放，需要优化成更优雅的方式），避免OOM。目前支持单卡，如果内存存在问题，考虑是否先同步运行。
- [ ] 自定义算子，使用模板减少重复代码。
- [x] 接口中的alloc padding，tensor alloc等函数，重新审视下是否符合NPU的使用场景。
- [ ] 组合算子替换成融合算子，提高效率，提需求，包括要支持bs的mm算子。
- [x] 对所有的代码完善文档，所有的函数完善注释。
- [x] ollama适配，0代码0配置使用npu后端的ollama服务。
- [x] 考虑q5_x量化的可行性。
- [x] 模型运行过程中的精度对比，建议保留对比工具函数。
- [ ] 添加tensor自定义内存布局的测试用例。
- [x] cont，dup，cpy算子统一。
- [x] ascendc_rope_init_cache函数使用多核。
- [x] kernel函数中param拷贝耗时长，需优化(加载模型时统一拷贝需考虑ne,nb在transpose/permute过程中改变的问题)
- [ ] 清理代码中的TODO。
- [x] rope_init_cache函数param拷贝input_ne踩内存问题定位，后续使用tiling进行参数传递
- [x] llama_kv_cache_update_internal()中进行k-shfit时存在问题，模型输出错误
- [ ] 算子异步发射
- [x] 文档
- [x] 多卡切图不正确，执行会卡住

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

TODO List #2

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

TODO List #2

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions