绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
智猩猩智算集群公开课
已更新8期
公开课简介

随着人工智能技术的快速发展,尤其是大模型参数规模的持续增加,算力需求呈爆发式增长,对AI算力基础设施也提出了更高的要求,并进一步推动了智算集群的兴起。

在国际市场, Google推出了拥有26000块NVIDIA H100 GPU的超级计算机A3 Virtual Machines,同时基于自研芯片搭建TPUv5p 8960卡集群。Meta在2022年推出了拥有16000块NVIDIA A100 的AI研究超级集群,2024年初又公布2个包含24576块NVIDIA H100的集群,用于支持下一代生成式AI模型的训练。马斯克xAI团队拥有10万块H100的Colossus集群已经上线,也是目前全球最强的智算集群,而未来规模还要翻一倍,扩展到15万张H100+5万张H200。

在国内,字节跳动搭建了一个12288卡Ampere架构训练集群,研发MegaScale生产系统用于训练大语言模型。科大讯飞在2023 年建成首个支持大模型训练的国产万卡智能算力集群“飞星一号”。中国移动近日也宣布,其智算中心(哈尔滨)节点超万卡智算集群正式投用。

全球科技巨头、电信运营商、云服务厂商等都在加紧布局智算集群,以抢抓大模型发展的机遇。

但是,智算集群并不是简单的硬件堆砌,集群规模的线性提升也并不直接等同于集群有效算力的线性提升。要构建一个高能效的智算集群,需要从卡间和节点间的互联网络、软硬件的适配调优、算力的调度优化、设备的管理与运维等多个方面,进行综合考量和设计规划,更需要产业链上下游厂商通力合作。

为了帮助大家更好的了解智算集群,智猩猩芯片与算力教研组策划推出「智猩猩智算集群公开课」,聚焦集群构建、互联网络、算力调度、存储等关键技术。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...