PTX与CUDA：性能、兼容性与生态系统

「DeepSeek大解读」系列公开课 2025/02/13 19:00:00

课程讲师

赵家程中国科学院计算技术研究所处理器芯片全国重点实验室副研究员、硕士生导师、计算所新百星、中科加禾资深顾问

主要研究方向为面向领域定制架构的编译技术，包括针对GPU、NPU、DPU等的编程语言、编译系统和运行时系统。相关研究成果发表在OSDI、ASPLOS、HPCA、TOCS、TPDS、MLSYS，TACO、PACT、ICS等领域内国际期刊和会议上，主持了包括重点研发课题在内的多个项目，相关编译技术已经应用在寒武纪、华为昇腾等芯片上。

赵家程

中国科学院计算技术研究所处理器芯片全国重点实验室副研究员、硕士生导师、计算所新百星、中科加禾资深顾问

课程提纲

GPGPU的底层编程方法介绍
使用PTX加速LLM训练与推理示例
探讨PTX对性能、兼容和生态的影响

课程简介

“DeepSeek绕开NVIDIA CUDA垄断”引起了巨大争议，进而把PTX推到了台前。实际上，PTX是NVIDIA GPU最底层的控制语言，由于其非常接近硬件层导致学习门槛较高，NVIDIA提供了CUDA来帮助开发者简化开发流程。所以本质上来说，PTX仍是CUDA工具链的核心组件。

DeepSeek团队的技术突破在于，通过直接编写PTX代码绕过CUDA高级抽象层，实现了对GPU硬件资源的深度优化。这一方法向业界展示了硬件资源深度挖掘、多维度性能优化和编程范式转变的可能性。

2月13日19点，中国科学院计算技术研究所处理器芯片全国重点实验室副研究员、中科加禾资深顾问赵家程博士将围绕PTX与CUDA，带来「DeepSeek大解读」系列公开课第二期的讲解，主题为《PTX与CUDA：性能、兼容性与生态系统》。

本次公开课，赵家程博士首先会介绍GPGPU底层编程方法，并分享使用PTX加速LLM训练与推理的示例，最后还将深入探讨PTX对性能、兼容性和生态系统的影响。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...