绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
大规模异构GPU集群的互联、运维与调度
智猩猩智算集群公开课 2024/12/19 19:30:00
课程讲师
敬阳 基流科技 技术负责人

北京航空航天大学硕士,高级工程师职称,北京基流科技核心骨干。参与编写多项国际/国内发明专利和实用新型专利。曾任北京京东科技有限公司SDN高级研发工程师、Juniper亚太网络研发工程师等职位。在基流科技一起牵头大规模异构GPU的NCCL互联优化创新、RDMA网络的容错增强,相关研发成果已成功在万卡、4千卡及多个2千卡、千卡环境稳定应用。

敬阳
基流科技 技术负责人

北京航空航天大学硕士,高级工程师职称,北京基流科技核心骨干。参与编写多项国际/国内发明专利和实用新型专利。曾任北京京东科技有限公司SDN高级研发工程师、Juniper亚太网络研发工程师等职位。在基流科技一起牵头大规模异构GPU的NCCL互联优化创新、RDMA网络的容错增强,相关研发成果已成功在万卡、4千卡及多个2千卡、千卡环境稳定应用。

课程提纲
  • 大模型算力基础设施概览
  • 大规模异构GPU互联发展现状与挑战
  • 面向异构GPU集群的超互联解决方案Helios解析
  • 大规模异构GPU集群的监控运维与算力调度
  • 实践案例
课程简介

智算集群是打造大模型的标配。为了支撑更多、更大规模的模型训练与推理,智算集群建设速度和规模正在飞速增长。

NVIDIA GPU是构建智算集群的首选计算芯片,但是受产能不足、国际环境等复杂因素的影响,很难实现大规模采购,甚至一卡难求。这给智算集群的构建带来了一定的挑战,但也给国产GPU厂商的产品应用落地提供了机会。

不同厂家的GPU在架构、通信库、软件栈方面均存在巨大差异,如何实现不同架构GPU之间的互联互通、高效稳定的通信,以及有效的算力聚合与调度,是异构GPU集群构建面临的巨大挑战。

为了应对上述问题,基流科技构建了面向异构GPU集群的超互联解决方案Helios,以及算力基础设施监控运维平台和大规模异构GPU算力调度平台,能够实现智算集群中大规模异构GPU之间的高效互联互通、运维管理和算力调度。

12月19日19:30,智猩猩智算集群公开课第7期将开讲,由基流科技技术负责人敬阳主讲,主题为《大规模异构GPU集群的互联、运维与调度》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...