1、请问对于参数量巨大的预训练模型,有没有好办法解决OOM的问题 2、使用的HOROVOD分布式框架,PADDLEPADDLE还没试过,模型并行需要修改代码,得好好研究一下
答主
程帅
NVIDIA 中国区HPC/DL 解决方案架构师
百度深度学习技术平台部资深研发工程师刘毅: 如果是OOM问题的话,比较推荐recompute。或者对模型参数比较熟悉,也可以执行做...
问题来源:飞桨平台多GPU并行训练方案解析
其他回答
发布
网友答案仅供其表达个人看法,并不表明智猩猩立场。