绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
智算中心 AI Scale-Up网络技术
智猩猩智算集群公开课 2024/11/28 19:30:00
课程讲师
唐杰 益思芯科技 解决方案副总裁

华东理工大学工学硕士,目前就职于益思芯科技上海有限公司,负责产品方案;主要构建以益思芯自主产权的P4为中心的数据中心虚拟网络加速加速方案,NVMe-oF 以及virtio-BLK/NVMe益思芯存储方案的设计和验证, Resnics自主开发的高速RDMA 网卡在算力网络的应用。在2022年加入益思芯之前,在FPGA厂商Xilinx主要负责数据中心的方案,积极投身软硬件结合的方案设计和推广。

唐杰
益思芯科技 解决方案副总裁

华东理工大学工学硕士,目前就职于益思芯科技上海有限公司,负责产品方案;主要构建以益思芯自主产权的P4为中心的数据中心虚拟网络加速加速方案,NVMe-oF 以及virtio-BLK/NVMe益思芯存储方案的设计和验证, Resnics自主开发的高速RDMA 网卡在算力网络的应用。在2022年加入益思芯之前,在FPGA厂商Xilinx主要负责数据中心的方案,积极投身软硬件结合的方案设计和推广。

课程提纲
  • AI智算网络为什么要有Scale-Up/Out之分
  • StarLink互联技术要解决的问题
  • StarLink实现的技术特点
  • 在智算中心实现StarLink互联的技术路径
课程简介

智算集群的规模越来越大,从最初的千卡、万卡到今天的十万卡。智算集群规模飞速增长的同时,大家也开始关注如何保证超大规模的卡间高效协同,是充分发挥集群计算性能的关键。这使得人们进一步认识到,对超大规模智算集群的构建来说,智算网络已经成为与计算芯片同等甚至更重要的关键技术之一。

Scale-Out、Scale-Up是目前广受关注的两大智算网络技术。Scale-Out通过以太网或Infiniband,实现GPU之间的RDMA功能,即所谓的前端网络。Scale-Up则用于GPU之间高速互连,可以实现跨GPU的内存读写,也称后端网络。从本质上来看,Scale-Out、Scale-Up都是为了实现GPU之间内存方面的数据传输,那么二者的本质区别是什么?为什么不能将二者合而为一呢?

11月28日19:30,「智猩猩智算集群公开课」第4期将开讲,由益思芯科技解决方案副总裁唐杰主讲,主题为《智算中心 AI Scale-Up 网络技术》。

本次公开课,唐杰老师首先会阐述AI智算网络为何要有Scale-Up/Out之分,之后会着重讲解益思芯StarLink互联技术要解决的问题,以及StarLink实现的技术特点和在智算中心实现StarLink互联的技术路径。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...