如果某个模型的请求执行完毕了，GPU显存会释放掉吗？

如果某个模型的请求执行完毕了，GPU显存会释放掉吗？

答主

胡麟

NVIDIA高级系统架构师

NVIDIA高级系统架构师胡麟: TensorRT Inference Server可以从模型仓库里面去load模型，在runtime的时候...

问题来源：使用TensorRT Inference Server加速深度学习模型的部署

其他回答

发布

网友答案仅供其表达个人看法，并不表明智猩猩立场。

相关回答

在什么硬件要求下才能建立这样的一个Server，必须V100,P4这类高档DGX吗？

TRTIS内使用pipeline串联多个模型中间的前后处理是否需要用CUDA实现？

TRTIS内使用XLA加速效果如何？

TensorRT 针对嵌入式平台做推理加速的优势？

GRPC和HTTP提交请求，哪个更好？

热门问答

请问INT4的算力为什么是INT8的2倍，而不是4倍？

SR-IOV和MIG的关系是什么？A100是否支持SR-IOV？

请教一下，在A100上MPS技术会怎样演进，和MIG技术有哪些结合？

MIG将来是不是会取代vGPU？有大致路线图吗？适配vGPU和适配MIG有没有升级问题？还是无缝升级？

NVLink与NVSwitch是什么关系？

如果不使用MIG，那么就可以使用8个GPU了？还有结构化稀疏支持两个矩阵都是稀疏的么？

NVLink 3.0通过12个X4 Link来支持双向600GB带宽，平均每个X4 link是50GB，这样的话，X16 link的双向带宽就有200GB，这个带宽已经超过PCIe 5.0的标准了，是这样吗？

MIG的各实例是程序员控制还是系统控制？

纹理内存究竟是单独的内存区域？还是gmem的一种特殊访问方式？（即，有限的究竟是纹理缓存还是纹理内存）

NeRF目前非常火爆，最近也有很多工作把NeRF应用到SLAM。相比于传统的SLAM，NeRF-based SLAM的优势在哪？未来的发展方向又是怎样的呢？