绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
低成本 DeepSeek R1 推理挑战与赤兔推理引擎实践
「DeepSeek大解读」系列公开课 2025/03/27 19:00:00
课程讲师
唐适之 清程极智 联合创始人

清华大学计算机专业学士、博士,负责清程极智并行训练、推理框架、算子优化等各类技术研发。唐适之曾获全国信息学奥赛 NOI 金牌,曾为清华大学国际超算竞赛 ASC/ISC/SC 三冠团队成员,主要的学术研究领域包括编程语言、异构计算等,代表工作为 FreeTensor 编程框架。

唐适之
清程极智 联合创始人

清华大学计算机专业学士、博士,负责清程极智并行训练、推理框架、算子优化等各类技术研发。唐适之曾获全国信息学奥赛 NOI 金牌,曾为清华大学国际超算竞赛 ASC/ISC/SC 三冠团队成员,主要的学术研究领域包括编程语言、异构计算等,代表工作为 FreeTensor 编程框架。

课程提纲
  • DeepSeek R1 与日益增长的算力需求
  • 有限硬件资源下的大模型推理取舍
  • “赤兔”方案:更广泛 GPU 上的 FP8 推理优化
课程简介

DeepSeek R1具有强大的推理能力,能够通过多次推理和思考得出问题的最佳答案。但其中每一步推理和思考都会消耗大量的计算资源,进而提高了单次推理的算力成本。如何缩减DeepSeek R1的推理算力成本,降低私有化部署门槛,是全行业共同面临的难题。

今年3月,清程极智联合清华大学翟季冬教授团队开源了大模型推理引擎赤兔(Chitu),率先实现了在非H卡设备运行原生FP8模型突破。实测数据显示,使用赤兔引擎在H800集群上部署满血版DeepSeek R1,相比于vLLM部署方案,能够在减少50%的GPU使用量的同时,将输出速度提升3.15倍。这意味着通过赤兔推理引擎,企业可以通过更少的硬件资源,实现更高的性能,大幅降低推理模型的私有化部署成本。

3月27日19点,智猩猩「DeepSeek大解读」系列公开课第6期将开讲,由清程极智联合创始人唐适之博士主讲,主题为《低成本DeepSeek R1推理挑战与赤兔推理引擎实践》。

本次公开课,唐适之博士首先会对DeepSeek R1与日益增长的算力需求进行分析,并探讨有限硬件资源下的大模型推理取舍之道。之后,唐适之博士还会深入讲解开源大模型推理引擎“赤兔”如何降低DeepSeek R1推理所需的硬件成本,尤其是在更广泛GPU上的FP8数据类型的推理优化实践。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...