
主要研究方向为面向领域定制架构的编译技术,包括针对GPU、NPU、DPU等的编程语言、编译系统和运行时系统。相关研究成果发表在OSDI、ASPLOS、HPCA、TOCS、TPDS、MLSYS,TACO、PACT、ICS等领域内国际期刊和会议上,主持了包括重点研发课题在内的多个项目,相关编译技术已经应用在寒武纪、华为昇腾等芯片上。

主要研究方向为面向领域定制架构的编译技术,包括针对GPU、NPU、DPU等的编程语言、编译系统和运行时系统。相关研究成果发表在OSDI、ASPLOS、HPCA、TOCS、TPDS、MLSYS,TACO、PACT、ICS等领域内国际期刊和会议上,主持了包括重点研发课题在内的多个项目,相关编译技术已经应用在寒武纪、华为昇腾等芯片上。
- GPGPU的底层编程方法介绍
- 使用PTX加速LLM训练与推理示例
- 探讨PTX对性能、兼容和生态的影响
“DeepSeek绕开NVIDIA CUDA垄断”引起了巨大争议,进而把PTX推到了台前。实际上,PTX是NVIDIA GPU最底层的控制语言,由于其非常接近硬件层导致学习门槛较高,NVIDIA提供了CUDA来帮助开发者简化开发流程。所以本质上来说,PTX仍是CUDA工具链的核心组件。
DeepSeek团队的技术突破在于,通过直接编写PTX代码绕过CUDA高级抽象层,实现了对GPU硬件资源的深度优化。这一方法向业界展示了硬件资源深度挖掘、多维度性能优化和编程范式转变的可能性。
2月13日19点,中国科学院计算技术研究所处理器芯片全国重点实验室副研究员、中科加禾资深顾问赵家程博士将围绕PTX与CUDA,带来「DeepSeek大解读」系列公开课第二期的讲解,主题为《PTX与CUDA:性能、兼容性与生态系统》。
本次公开课,赵家程博士首先会介绍GPGPU底层编程方法,并分享使用PTX加速LLM训练与推理的示例,最后还将深入探讨PTX对性能、兼容性和生态系统的影响。
