绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
基于COAT框架实现显存高效的FP8训练
智猩猩AI新青年讲座 2025/05/28 10:00:00
课程讲师
席浩诚 加州大学伯克利分校 加州大学伯克利分校博士生

加州大学伯克利分校计算机科学一年级博士生,师从Kurt Keutzer教授,研究方向聚焦于大型语言模型(LLM)和扩散模型的高效训练与推理。本科毕业于清华大学姚班,期间师从陈键飞教授和朱军教授。席浩诚曾在英伟达担任实习研究员,跟随韩松教授参与FP8低精度训练方法的研发。他在ICML、NeurIPS、ICLR等国际顶级会议上发表多篇论文,代表性成果包括Sparse VideoGen、COAT、Jetfire等,致力于推动大模型训练和推理的效率和可扩展性。

席浩诚
加州大学伯克利分校 加州大学伯克利分校博士生

加州大学伯克利分校计算机科学一年级博士生,师从Kurt Keutzer教授,研究方向聚焦于大型语言模型(LLM)和扩散模型的高效训练与推理。本科毕业于清华大学姚班,期间师从陈键飞教授和朱军教授。席浩诚曾在英伟达担任实习研究员,跟随韩松教授参与FP8低精度训练方法的研发。他在ICML、NeurIPS、ICLR等国际顶级会议上发表多篇论文,代表性成果包括Sparse VideoGen、COAT、Jetfire等,致力于推动大模型训练和推理的效率和可扩展性。

课程提纲
  • 1.当前FP8训练面临的挑战与背景
  • 2.COAT框架概述
  • 3.动态范围扩展技术详解
  • 4.混合粒度量化方法分析
  • 5.COAT在LLM训练中如何实现无损加速
课程简介

在深度学习领域,随着LLM的复杂度和训练数据量的持续增加,模型训练所需的计算资源和显存消耗呈爆炸式增长。DeepSeek V3和R1在训练中应用FP8量化技术,通过降低数据宽度和提升计算效率,有效缓解了内存压力,展现了FP8在LLM训练中的巨大潜力。然而,现有FP8训练方法在显存利用上仍有显著提升空间。

为此,来自加州大学伯克利分校、英伟达、MIT、清华大学的研究者们提出了一个面向FP8训练的显存高效框架COAT(Compressing Optimizer states And activations for memory-efficient FP8 Training),通过 FP8 量化来压缩优化器状态和激活值,从而提高内存利用率和训练速度。

COAT通过Dynamic Range Expansion(动态范围扩展)和Mixed Granularity Quantization(混合粒度量化)技术实现了FP8的优化。动态范围扩展增强了FP8对优化器量化的表示能力,确保其在FP8格式下仍能保持足够的精度进行预训练。混合粒度量化技术中模型的激活值根据不同层的类型,采用不同粒度的量化策略,进一步压缩显存使用。

COAT允许在单个GPU上进行Llama-2-7B的全参数训练,而BF16和TE都会出现out of memory的情况。对于Llama-2-13B和Llama-30B模型,当Batch Size = 1时,COAT方法可以实现Llama-2-13B的2个GPU训练和Llama-30B的8个GPU训练。

在使用4个GPU训练Llama-2-13B模型时,COAT将每个GPU的内存占用从BF16的76.1GB减少到49.1GB,实现了1.54倍的内存缩减;将训练速度从BF16的每秒2345个token提升至每秒5295个token,达到1.43倍的训练加速。在多GPU训练中,COAT能够将micro-batch size翻倍,从而实现更高的加速效果。

5月28日早上10点,智猩猩邀请到论文一作、加州大学伯克利分校博士生 席浩诚参与「智猩猩AI新青年讲座」第264讲,以《基于COAT框架实现显存高效的FP8训练》为主题带来直播讲解。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...