一个在驱动层层面伪造GPU的工具,让操作系统看来,系统中存在一些本不存在的GPU,从而达到做出最小改动调试某些代码的能力。
- 在设备层面,创建能够hack掉nvidia-smi的虚拟GPU设备,让代码完全认为这是一张真实存在的nvidia GPU。
- 用返回的随机值来实现一些算子,但是要能够监测算子的执行过程,以及显存的占用趋势,在程序运行结束的时候,要能够打印一份统计报告,统计出代码需要调用的资源峰值是什么。在实现中,可以使用系统内存模拟显存的操作。
- 在设备层面,创建两个新的类型的GPU设备,设备信息和nvidia的不同
- 在代码层面,仿照华为的npu逻辑,使用
import torch_npu之类的逻辑,来让代码适配这部分的GPU设备。