绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
DeepLink超大规模跨域混训实践
超节点与智算集群系列 2025/12/11 19:00:00
主讲人

曾负责过多款国产芯片在各种编译范式上的适配与优化,支持了国产芯片在传统模型,大语言模型上的训练与推理,在开源社区有着一定的影响力。在深度学习训练推理框架,深度学习编译方面有着多年经验。曾在FPGA/FPL/ACM TRETS等发表多篇论文。

金旻玺
上海人工智能实验室 高级工程师

曾负责过多款国产芯片在各种编译范式上的适配与优化,支持了国产芯片在传统模型,大语言模型上的训练与推理,在开源社区有着一定的影响力。在深度学习训练推理框架,深度学习编译方面有着多年经验。曾在FPGA/FPL/ACM TRETS等发表多篇论文。

完整议程
  • 跨域混训技术的起源
  • 支持跨域混训的DeepLink 2.0技术框架
  • 跨域混训核心技术解析
  • 产业落地实践
研讨会简介

随着大模型参数规模从亿级迈向万亿级,单点智算集群的算力瓶颈日益凸显,但其建设又面临高昂成本、长周期和能源限制。与此同时,全国范围内已建成大量智算集群,但由于不同建设主体,采用了不同代次、不同架构的AI芯片,导致算力资源呈现“碎片化”状态,形成一个个“算力孤岛”,难以协同完成单一大规模训练任务。

这种“既短缺又闲置”的矛盾局面,使得产业界开始积极探索如何通过软硬件协同创新,突破跨域异构算力的高效互联互通障碍,以实现算力资源的全局优化和高效利用。

今年7月,上海人工智能实验室推出DeepLink超大规模跨域混训技术方案,解决了大规模跨域异构集群调度、高性能通信协议整合、高可靠容错机制设计等技术难题,能够有效应对硬件算力参差不齐、通信同步不稳定、故障容错难等挑战。该方案支持千公里多智算中心跨域长稳混训千亿参数大模型,并且已完成了多个项目落地。

12月11日19点,智猩猩公开课超节点与智算集群系列第19期将开讲,由上海人工智能实验室高级工程师金旻玺主讲,主题为《DeepLink超大规模跨域混训实践》。

金旻玺首先会介绍国内外算力与生态的发展现状,以及跨域混训技术的起源,之后将对支持跨域混训的DeepLink 2.0技术框架,以及跨域混训核心技术进行深入解析。最后,金旻玺还将分享基于 DeepLink 的跨域混训产业落地实践。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...