问答
文章
下载
问答
登录
登录
如果利用工具定位瓶颈算子改进和回归测试
答主
池哲贵
NVIDIA资深并行计算技术经理
登录查看完整答案
NVIDIA资深并行计算技术经理池哲贵: 可以用Nsight去看,用Nsight去profile你的应用,找到里面耗...
问题来源:基于NVIDIA DRIVE AGX的CUDA并行加速及GPU应用性能分析
其他回答
发布
网友答案仅供其表达个人看法,并不表明智猩猩立场。
相关回答
用agx做开发的L4国内的软件团队有推荐吗?
multicudastream可以在多个GPU device上面吗?还是只能在同一个device?
是否有比较方便的工具来判断单个kernel对GPU的利用情况?如果单个kernel能用上GPU的全部资源,采用多流似乎也不能带来性能提升。 。
我看您图片实例上GPU的任务像pipeline的形式 请问这是kernel引擎和数据拷贝引擎的并行吗? 如果说我一个kernel做a+b 一个kernel做c-d 这两个kernel在不同的流里 那么这两个kernel可以通过流的并发同时执行吗? 如果可以的话不是违反了Simd的特点
cuda graph能处理kernel执行有变动的情况吗,如需要根据运行时变量决定该执行哪个kernel ?
热门问答
请问INT4的算力为什么是INT8的2倍,而不是4倍?
SR-IOV和MIG的关系是什么?A100是否支持SR-IOV?
请教一下,在A100上MPS技术会怎样演进,和MIG技术有哪些结合?
MIG将来是不是会取代vGPU?有大致路线图吗?适配vGPU和适配MIG有没有升级问题?还是无缝升级?
NVLink与NVSwitch是什么关系?
如果不使用MIG,那么就可以使用8个GPU了?还有结构化稀疏支持两个矩阵都是稀疏的么?
MIG的各实例是程序员控制还是系统控制?
NVLink 3.0通过12个X4 Link来支持双向600GB带宽,平均每个X4 link是50GB,这样的话,X16 link的双向带宽就有200GB,这个带宽已经超过PCIe 5.0的标准了,是这样吗?
纹理内存究竟是单独的内存区域?还是gmem的一种特殊访问方式?(即,有限的究竟是纹理缓存还是纹理内存)
NeRF目前非常火爆,最近也有很多工作把NeRF应用到SLAM。相比于传统的SLAM,NeRF-based SLAM的优势在哪?未来的发展方向又是怎样的呢?