短视频AI推理, 个人理解有时需要多个模型串联执行,
如何有效做到低延迟?模型部署的时候如何做model accelaration?(硬件还是软件)
登录查看完整答案

NVIDIA数据科学家徐添豪:
第一块是当你视频解码出来之后,prime其实可以并发的去做推理,在GPU上做并发,其实一般如果是单进程的程序的话,进程内可以做多流的推理,这时候它在GPU上的执行器是并发的,来做到低延迟;另外一个点是去...
问题来源:短视频场景的AI应用推理与优化
其他回答
网友答案仅供其表达个人看法,并不表明智猩猩立场。