如果利用工具定位瓶颈算子改进和回归测试

如果利用工具定位瓶颈算子改进和回归测试

答主

池哲贵

NVIDIA资深并行计算技术经理

NVIDIA资深并行计算技术经理池哲贵：可以用Nsight去看，用Nsight去profile你的应用，找到里面耗...

问题来源：基于NVIDIA DRIVE AGX的CUDA并行加速及GPU应用性能分析

其他回答

发布

网友答案仅供其表达个人看法，并不表明智猩猩立场。

相关回答

用agx做开发的L4国内的软件团队有推荐吗？

multicudastream可以在多个GPU device上面吗？还是只能在同一个device？

是否有比较方便的工具来判断单个kernel对GPU的利用情况？如果单个kernel能用上GPU的全部资源，采用多流似乎也不能带来性能提升。。

我看您图片实例上GPU的任务像pipeline的形式请问这是kernel引擎和数据拷贝引擎的并行吗？如果说我一个kernel做a+b 一个kernel做c-d 这两个kernel在不同的流里那么这两个kernel可以通过流的并发同时执行吗? 如果可以的话不是违反了Simd的特点

cuda graph能处理kernel执行有变动的情况吗，如需要根据运行时变量决定该执行哪个kernel ?

热门问答

请问INT4的算力为什么是INT8的2倍，而不是4倍？

SR-IOV和MIG的关系是什么？A100是否支持SR-IOV？

请教一下，在A100上MPS技术会怎样演进，和MIG技术有哪些结合？

MIG将来是不是会取代vGPU？有大致路线图吗？适配vGPU和适配MIG有没有升级问题？还是无缝升级？

NVLink与NVSwitch是什么关系？

如果不使用MIG，那么就可以使用8个GPU了？还有结构化稀疏支持两个矩阵都是稀疏的么？

NVLink 3.0通过12个X4 Link来支持双向600GB带宽，平均每个X4 link是50GB，这样的话，X16 link的双向带宽就有200GB，这个带宽已经超过PCIe 5.0的标准了，是这样吗？

MIG的各实例是程序员控制还是系统控制？

纹理内存究竟是单独的内存区域？还是gmem的一种特殊访问方式？（即，有限的究竟是纹理缓存还是纹理内存）

陈博士您好，请问MinD-Vis可以用到3D的图像数据生成上吗？在cross attention上和在time embedding上加的条件分别有什么作用呢？除了在cross attention上和在time embedding上加条件之外，还有什么地方可以加条件呢？