- 开课提醒
DeepLink超大规模跨域混训实践
超节点与智算集群系列 2025/12/11 19:00:00
主讲人
完整议程
- 跨域混训技术的起源
- 支持跨域混训的DeepLink 2.0技术框架
- 跨域混训核心技术解析
- 产业落地实践
研讨会简介
随着大模型参数规模从亿级迈向万亿级,单点智算集群的算力瓶颈日益凸显,但其建设又面临高昂成本、长周期和能源限制。与此同时,全国范围内已建成大量智算集群,但由于不同建设主体,采用了不同代次、不同架构的AI芯片,导致算力资源呈现“碎片化”状态,形成一个个“算力孤岛”,难以协同完成单一大规模训练任务。
这种“既短缺又闲置”的矛盾局面,使得产业界开始积极探索如何通过软硬件协同创新,突破跨域异构算力的高效互联互通障碍,以实现算力资源的全局优化和高效利用。
今年7月,上海人工智能实验室推出DeepLink超大规模跨域混训技术方案,解决了大规模跨域异构集群调度、高性能通信协议整合、高可靠容错机制设计等技术难题,能够有效应对硬件算力参差不齐、通信同步不稳定、故障容错难等挑战。该方案支持千公里多智算中心跨域长稳混训千亿参数大模型,并且已完成了多个项目落地。
12月11日19点,智猩猩公开课超节点与智算集群系列第19期将开讲,由上海人工智能实验室高级工程师金旻玺主讲,主题为《DeepLink超大规模跨域混训实践》。
金旻玺首先会介绍国内外算力与生态的发展现状,以及跨域混训技术的起源,之后将对支持跨域混训的DeepLink 2.0技术框架,以及跨域混训核心技术进行深入解析。最后,金旻玺还将分享基于 DeepLink 的跨域混训产业落地实践。
精彩问答
提问
提问