- 开课提醒

加州大学伯克利分校计算机科学一年级博士生,师从Kurt Keutzer教授,研究方向聚焦于大型语言模型(LLM)和扩散模型的高效训练与推理。本科毕业于清华大学姚班,期间师从陈键飞教授和朱军教授。席浩诚曾在英伟达担任实习研究员,跟随韩松教授参与FP8低精度训练方法的研发。他在ICML、NeurIPS、ICLR等国际顶级会议上发表多篇论文,代表性成果包括Sparse VideoGen、COAT、Jetfire等,致力于推动大模型训练和推理的效率和可扩展性。
- 1.当前FP8训练面临的挑战与背景
- 2.COAT框架概述
- 3.动态范围扩展技术详解
- 4.混合粒度量化方法分析
- 5.COAT在LLM训练中如何实现无损加速
在深度学习领域,随着LLM的复杂度和训练数据量的持续增加,模型训练所需的计算资源和显存消耗呈爆炸式增长。DeepSeek V3和R1在训练中应用FP8量化技术,通过降低数据宽度和提升计算效率,有效缓解了内存压力,展现了FP8在LLM训练中的巨大潜力。然而,现有FP8训练方法在显存利用上仍有显著提升空间。
为此,来自加州大学伯克利分校、英伟达、MIT、清华大学的研究者们提出了一个面向FP8训练的显存高效框架COAT(Compressing Optimizer states And activations for memory-efficient FP8 Training),通过 FP8 量化来压缩优化器状态和激活值,从而提高内存利用率和训练速度。
COAT通过Dynamic Range Expansion(动态范围扩展)和Mixed Granularity Quantization(混合粒度量化)技术实现了FP8的优化。动态范围扩展增强了FP8对优化器量化的表示能力,确保其在FP8格式下仍能保持足够的精度进行预训练。混合粒度量化技术中模型的激活值根据不同层的类型,采用不同粒度的量化策略,进一步压缩显存使用。
COAT允许在单个GPU上进行Llama-2-7B的全参数训练,而BF16和TE都会出现out of memory的情况。对于Llama-2-13B和Llama-30B模型,当Batch Size = 1时,COAT方法可以实现Llama-2-13B的2个GPU训练和Llama-30B的8个GPU训练。
在使用4个GPU训练Llama-2-13B模型时,COAT将每个GPU的内存占用从BF16的76.1GB减少到49.1GB,实现了1.54倍的内存缩减;将训练速度从BF16的每秒2345个token提升至每秒5295个token,达到1.43倍的训练加速。在多GPU训练中,COAT能够将micro-batch size翻倍,从而实现更高的加速效果。
5月28日早上10点,智猩猩邀请到论文一作、加州大学伯克利分校博士生 席浩诚参与「智猩猩AI新青年讲座」第264讲,以《基于COAT框架实现显存高效的FP8训练》为主题带来直播讲解。
