DeepSeek V3/R1架构的深度分析与深度思考

「DeepSeek大解读」系列公开课 2025/02/11 15:00:00

课程讲师

陈巍中存算董事长

大模型+AI芯片专家，高级职称。国际计算机学会（ACM）、中国计算机学会（CCF）专业会员，多个国际人工智能期刊审稿人。主要研究方向为大模型架构、稀疏量化压缩与部署加速，存算一体与3D Chiplet处理器，相关技术成果已被广泛应用于知名IDC和互联网企业。

曾任领域知名人工智能（自然语言处理）企业首席科学家，中国科学院副主任（2012），多个国家科技重大专项课题负责人。中国与美国发明专利软件著作权约70+项（约50+项发明专利已授权）。著有《Sora大模型技术精要—原理、关键技术、模型架构与未来趋势》《GPT-4大模型硬核解读》《ChatGPT大模型技术精要—发展历程、原理、技术架构详解和产业未来》《DeepSeek是否有国运级的创新？2万字解读与硬核分析DeepSeek V3/R1的架构》等。

陈巍

中存算董事长

课程提纲

Scaling law与Moore's law的范式共生
DeepSeek的架构提升与既要又要
V3/R1训练架构与软硬件协同进化
V3/R1训练流程与RL变幻莫测的潜力
从DeepSeek到算力竞赛的深度思考

课程简介

第一期关注V3/R1采用的MoE架构，陈巍博士将从MoE模型架构与低比特训练框架创新的角度，深入分析DeepSeek V3/R1的架构、训练流程和训练框架设计思想，并给出大模型发展路线和算力芯片范式共生的深度思考。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...