绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
PTX与CUDA:性能、兼容性与生态系统
「DeepSeek大解读」系列公开课 2025/02/13 19:00:00
课程讲师
赵家程 中国科学院计算技术研究所 处理器芯片全国重点实验室副研究员、硕士生导师、计算所新百星、中科加禾资深顾问

主要研究方向为面向领域定制架构的编译技术,包括针对GPU、NPU、DPU等的编程语言、编译系统和运行时系统。相关研究成果发表在OSDI、ASPLOS、HPCA、TOCS、TPDS、MLSYS,TACO、PACT、ICS等领域内国际期刊和会议上,主持了包括重点研发课题在内的多个项目,相关编译技术已经应用在寒武纪、华为昇腾等芯片上。

赵家程
中国科学院计算技术研究所 处理器芯片全国重点实验室副研究员、硕士生导师、计算所新百星、中科加禾资深顾问

主要研究方向为面向领域定制架构的编译技术,包括针对GPU、NPU、DPU等的编程语言、编译系统和运行时系统。相关研究成果发表在OSDI、ASPLOS、HPCA、TOCS、TPDS、MLSYS,TACO、PACT、ICS等领域内国际期刊和会议上,主持了包括重点研发课题在内的多个项目,相关编译技术已经应用在寒武纪、华为昇腾等芯片上。

课程提纲
  • GPGPU的底层编程方法介绍
  • 使用PTX加速LLM训练与推理示例
  • 探讨PTX对性能、兼容和生态的影响
课程简介

“DeepSeek绕开NVIDIA CUDA垄断”引起了巨大争议,进而把PTX推到了台前。实际上,PTX是NVIDIA GPU最底层的控制语言,由于其非常接近硬件层导致学习门槛较高,NVIDIA提供了CUDA来帮助开发者简化开发流程。所以本质上来说,PTX仍是CUDA工具链的核心组件。

DeepSeek团队的技术突破在于,通过直接编写PTX代码绕过CUDA高级抽象层,实现了对GPU硬件资源的深度优化。这一方法向业界展示了硬件资源深度挖掘、多维度性能优化和编程范式转变的可能性。

2月13日19点,中国科学院计算技术研究所处理器芯片全国重点实验室副研究员、中科加禾资深顾问赵家程博士将围绕PTX与CUDA,带来「DeepSeek大解读」系列公开课第二期的讲解,主题为《PTX与CUDA:性能、兼容性与生态系统》。

本次公开课,赵家程博士首先会介绍GPGPU底层编程方法,并分享使用PTX加速LLM训练与推理的示例,最后还将深入探讨PTX对性能、兼容性和生态系统的影响。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...