短视频AI推理, 个人理解有时需要多个模型串联执行, 如何有效做到低延迟？模型部署的时候如何做model accelaration？（硬件还是软件）

短视频AI推理, 个人理解有时需要多个模型串联执行, 如何有效做到低延迟？模型部署的时候如何做model accelaration？（硬件还是软件）

答主

徐添豪

NVIDIA数据科学家

NVIDIA数据科学家徐添豪: 第一块是当你视频解码出来之后，prime其实可以并发的去做推理，在GPU上做并发，其实一般如果是单进程的程序的话，进程内可以做多流的推理，这时候它在GPU上的执行器是并发的，来做到低延迟；另外一个点是去...

问题来源：短视频场景的AI应用推理与优化

其他回答

发布

网友答案仅供其表达个人看法，并不表明智猩猩立场。

相关回答

每次是重现开始新的训练，模型效果会提升

训练模型的时候，发现多次训练，模型的推理能力会有提升，这是偶然事件吗？

T4 4卡负载率低的问题如何解决？硬件还是软件？

请问MPS在推理中是否有使用价值，刚在您提到相对多流，性能仅有一点点提升。实际场景中，多流并发处理带来的价值是否更大？

多进程使用单张T4推理时，是否可以用MPS提升T4利用率和latency性能？

热门问答

请问INT4的算力为什么是INT8的2倍，而不是4倍？

SR-IOV和MIG的关系是什么？A100是否支持SR-IOV？

请教一下，在A100上MPS技术会怎样演进，和MIG技术有哪些结合？

MIG将来是不是会取代vGPU？有大致路线图吗？适配vGPU和适配MIG有没有升级问题？还是无缝升级？

NVLink与NVSwitch是什么关系？

如果不使用MIG，那么就可以使用8个GPU了？还有结构化稀疏支持两个矩阵都是稀疏的么？

NVLink 3.0通过12个X4 Link来支持双向600GB带宽，平均每个X4 link是50GB，这样的话，X16 link的双向带宽就有200GB，这个带宽已经超过PCIe 5.0的标准了，是这样吗？

MIG的各实例是程序员控制还是系统控制？

纹理内存究竟是单独的内存区域？还是gmem的一种特殊访问方式？（即，有限的究竟是纹理缓存还是纹理内存）

NeRF目前非常火爆，最近也有很多工作把NeRF应用到SLAM。相比于传统的SLAM，NeRF-based SLAM的优势在哪？未来的发展方向又是怎样的呢？