基于COAT框架实现显存高效的FP8训练

开课提醒

智猩猩AI新青年讲座 2025/05/28 10:00:00

课程讲师

席浩诚加州大学伯克利分校加州大学伯克利分校博士生

加州大学伯克利分校计算机科学一年级博士生，师从Kurt Keutzer教授，研究方向聚焦于大型语言模型（LLM）和扩散模型的高效训练与推理。本科毕业于清华大学姚班，期间师从陈键飞教授和朱军教授。席浩诚曾在英伟达担任实习研究员，跟随韩松教授参与FP8低精度训练方法的研发。他在ICML、NeurIPS、ICLR等国际顶级会议上发表多篇论文，代表性成果包括Sparse VideoGen、COAT、Jetfire等，致力于推动大模型训练和推理的效率和可扩展性。

席浩诚

加州大学伯克利分校加州大学伯克利分校博士生

课程提纲

1.当前FP8训练面临的挑战与背景
2.COAT框架概述
3.动态范围扩展技术详解
4.混合粒度量化方法分析
5.COAT在LLM训练中如何实现无损加速

课程简介

在深度学习领域，随着LLM的复杂度和训练数据量的持续增加，模型训练所需的计算资源和显存消耗呈爆炸式增长。DeepSeek V3和R1在训练中应用FP8量化技术，通过降低数据宽度和提升计算效率，有效缓解了内存压力，展现了FP8在LLM训练中的巨大潜力。然而，现有FP8训练方法在显存利用上仍有显著提升空间。

为此，来自加州大学伯克利分校、英伟达、MIT、清华大学的研究者们提出了一个面向FP8训练的显存高效框架COAT（Compressing Optimizer states And activations for memory-efficient FP8 Training），通过 FP8 量化来压缩优化器状态和激活值，从而提高内存利用率和训练速度。

COAT通过Dynamic Range Expansion（动态范围扩展）和Mixed Granularity Quantization（混合粒度量化）技术实现了FP8的优化。动态范围扩展增强了FP8对优化器量化的表示能力，确保其在FP8格式下仍能保持足够的精度进行预训练。混合粒度量化技术中模型的激活值根据不同层的类型，采用不同粒度的量化策略，进一步压缩显存使用。

COAT允许在单个GPU上进行Llama-2-7B的全参数训练，而BF16和TE都会出现out of memory的情况。对于Llama-2-13B和Llama-30B模型，当Batch Size = 1时，COAT方法可以实现Llama-2-13B的2个GPU训练和Llama-30B的8个GPU训练。

在使用4个GPU训练Llama-2-13B模型时，COAT将每个GPU的内存占用从BF16的76.1GB减少到49.1GB，实现了1.54倍的内存缩减；将训练速度从BF16的每秒2345个token提升至每秒5295个token，达到1.43倍的训练加速。在多GPU训练中，COAT能够将micro-batch size翻倍，从而实现更高的加速效果。

5月28日早上10点，智猩猩邀请到论文一作、加州大学伯克利分校博士生席浩诚参与「智猩猩AI新青年讲座」第264讲，以《基于COAT框架实现显存高效的FP8训练》为主题带来直播讲解。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...