绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
DeepSeek V3/R1架构的深度分析与深度思考
「DeepSeek大解读」系列公开课 2025/02/11 15:00:00
课程讲师
陈巍 中存算 董事长

大模型+AI芯片专家,高级职称。国际计算机学会(ACM)、中国计算机学会(CCF)专业会员,多个国际人工智能期刊审稿人。主要研究方向为大模型架构、稀疏量化压缩与部署加速,存算一体与3D Chiplet处理器,相关技术成果已被广泛应用于知名IDC和互联网企业。

曾任领域知名人工智能(自然语言处理)企业首席科学家,中国科学院副主任(2012),多个国家科技重大专项课题负责人。中国与美国发明专利软件著作权约70+项(约50+项发明专利已授权)。著有《Sora大模型技术精要—原理、关键技术、模型架构与未来趋势》《GPT-4大模型硬核解读》《ChatGPT大模型技术精要—发展历程、原理、技术架构详解和产业未来》《DeepSeek是否有国运级的创新?2万字解读与硬核分析DeepSeek V3/R1的架构》等。

陈巍
中存算 董事长

大模型+AI芯片专家,高级职称。国际计算机学会(ACM)、中国计算机学会(CCF)专业会员,多个国际人工智能期刊审稿人。主要研究方向为大模型架构、稀疏量化压缩与部署加速,存算一体与3D Chiplet处理器,相关技术成果已被广泛应用于知名IDC和互联网企业。

曾任领域知名人工智能(自然语言处理)企业首席科学家,中国科学院副主任(2012),多个国家科技重大专项课题负责人。中国与美国发明专利软件著作权约70+项(约50+项发明专利已授权)。著有《Sora大模型技术精要—原理、关键技术、模型架构与未来趋势》《GPT-4大模型硬核解读》《ChatGPT大模型技术精要—发展历程、原理、技术架构详解和产业未来》《DeepSeek是否有国运级的创新?2万字解读与硬核分析DeepSeek V3/R1的架构》等。

课程提纲
  • Scaling law与Moore's law的范式共生
  • DeepSeek的架构提升与既要又要
  • V3/R1训练架构与软硬件协同进化
  • V3/R1训练流程与RL变幻莫测的潜力
  • 从DeepSeek到算力竞赛的深度思考
课程简介

第一期关注V3/R1采用的MoE架构,陈巍博士将从MoE模型架构与低比特训练框架创新的角度,深入分析DeepSeek V3/R1的架构、训练流程和训练框架设计思想,并给出大模型发展路线和算力芯片范式共生的深度思考。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...