多GPU训练,如何比较好的资源调度做到程序稳定(多GPU的调度策略)?
答主
程帅
NVIDIA 中国区HPC/DL 解决方案架构师
NVIDIA 中国区HPC/DL 解决方案架构师程帅: 这是一个就是GPU集群管理调度的一个问题,现在主流的GPU系统在国内可以分成2部分,一类是交通系统,一类是基于容器的一个比如K8S的调度编排的一个调度系统。K8S里面是支持了GPU设备的自发现,然后你只是去提交G...
问题来源:飞桨平台多GPU并行训练方案解析
其他回答
发布
网友答案仅供其表达个人看法,并不表明智猩猩立场。