- 1、现有扩散模型微调方法及局限性
- 2、扩散模型中无效参数分析及潜在有效性
- 3、基于无效参数重用的微调方法
- 4、通过非结构化反向传播降低微调显存
- 5、基础模型提升与下游任务微调
近年来扩散模型的快速发展,图像生成、视频生成、3D生成等任务取得了重大进展。然而一个核心问题也随之浮现:如何有效且高效地微调预训练的基础扩散模型,并将其应用于新任务。现有的微调方法可分为附加型微调方法(AFT)、重参数化微调方法(RFT)以及选择性微调方法(SFT)。AFT和RFT方法都需要针对不同模型进行特定设计,以及根据具体任务调整隐藏维度或秩值。而SFT方法不仅引入了较高的延迟,还对参数选择的超参数敏感,在效果和训练效率方面表现不佳。
针对上述问题,上海交通大学在读博士胡腾联合腾讯优图实验室研究人员提出了一种新颖的高效微调方法SaRA(Sparse Low-Rank Adaptation),其专门为预训练扩散模型设计,现已开源。该方法是基于渐进稀疏低秩适应的高效微调,利用基于核范数的低秩损失来有效防止模型过拟合,同时引入渐进训练策略,以充分利用无效参数,从而使模型在学习新知识的同时不影响其原有的泛化能力。
针对上述问题,上海交通大学在读博士胡腾联合腾讯优图实验室研究人员提出了一种新颖的高效微调方法SaRA(Sparse Low-Rank Adaptation),其专门为预训练扩散模型设计,现已开源。该方法是基于渐进稀疏低秩适应的高效微调,利用基于核范数的低秩损失来有效防止模型过拟合,同时引入渐进训练策略,以充分利用无效参数,从而使模型在学习新知识的同时不影响其原有的泛化能力。
SaRA不仅实现了低内存消耗,还实现了很好的代码集成,只需要修改一行代码即可实现高效的扩散模型微调。结果表明,SaRA相较于其他微调方法能够更好地学习到下游任务的知识,并最大化维护模型的先验信息,其高效性、简便性和实用性,不仅解决了如何高效利用预训练扩散模型中无效参数的问题,还为未来在各种下游任务中应用扩散模型提供了新的可能性。
11月27日19点,智猩猩邀请到论文一作、上海交通大学在读博士胡腾参与「智猩猩AI新青年讲座」255讲,主讲《扩散模型高效微调方法SaRA与显存占用优化》。