Skip to content

TODO List #2

Closed
Closed
@hipudding

Description

@hipudding
  • 解决当前运行时的错误。
  • 解决推理精度问题[LLAMA系FP16精度问题已解决]。
  • 使用内存池管理临时使用的dev或者host内存(buddy system)。还需要考虑及时释放已经使用完的内存(stream 同步时释放, dst重用时释放,需要优化成更优雅的方式),避免OOM。目前支持单卡,如果内存存在问题,考虑是否先同步运行。
  • 自定义算子,使用模板减少重复代码。
  • 接口中的alloc padding,tensor alloc等函数,重新审视下是否符合NPU的使用场景。
  • 组合算子替换成融合算子,提高效率,提需求,包括要支持bs的mm算子。
  • 对所有的代码完善文档,所有的函数完善注释。
  • ollama适配,0代码0配置使用npu后端的ollama服务。
  • 考虑q5_x量化的可行性。
  • 模型运行过程中的精度对比,建议保留对比工具函数。
  • 添加tensor自定义内存布局的测试用例。
  • cont,dup,cpy算子统一。
  • ascendc_rope_init_cache函数使用多核。
  • kernel函数中param拷贝耗时长,需优化(加载模型时统一拷贝需考虑ne,nb在transpose/permute过程中改变的问题)
  • 清理代码中的TODO。
  • rope_init_cache函数param拷贝input_ne踩内存问题定位,后续使用tiling进行参数传递
  • llama_kv_cache_update_internal()中进行k-shfit时存在问题,模型输出错误
  • 算子异步发射
  • 文档
  • 多卡切图不正确,执行会卡住

Metadata

Metadata

Assignees

Labels

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions