如果某个模型的请求执行完毕了,GPU显存会释放掉吗?
答主
胡麟
NVIDIA高级系统架构师
NVIDIA高级系统架构师胡麟: TensorRT Inference Server可以从模型仓库里面去load模型,在runtime的时候...
问题来源:使用TensorRT Inference Server加速深度学习模型的部署
其他回答
发布
网友答案仅供其表达个人看法,并不表明智猩猩立场。