利用强化学习在真实环境下进行VLA后训练

智猩猩AI新青年讲座具身智能专题 2025/06/09 19:00:00

课程讲师

陈宇辉中科院自动化所博士生

师从赵冬斌研究员和李浩然研究员。目前主要研究方向为强化学习、机器人学习、具身智能。在NeurIPS，AAMAS等顶级会议上发表多篇论文。

陈宇辉

中科院自动化所博士生

师从赵冬斌研究员和李浩然研究员。目前主要研究方向为强化学习、机器人学习、具身智能。在NeurIPS，AAMAS等顶级会议上发表多篇论文。

课程提纲

课程简介

VLA（视觉-语言-动作模型）作为具身智能领域的关键新范式，能显著提升机器人对复杂环境的理解和适应能力。但目前仍难以在真机任务中做到零样本泛化，因此使用专用数据进行后训练对于提升VLA模型在下游任务中的性能至关重要。

传统方法是使用人类遥操作收集的数据对VLA进行监督微调，但其性能严重依赖大量的高质量人类示范数据。由于人类示范数据的存在质量良莠不齐、策略不一致性等固有问题，因此微调后的模型难以实现较高的性能，尤其是在精细控制的操作任务上。

为此，来自中科院自动化所深度强化学习团队提出了一种基于强化学习的VLA后训练方法ConRFT。该方法由离线和在线微调两阶段组成，具有统一的一致性策略训练目标。与ConRFT相关的论文成果目前已被顶会RSS 2025收录。

ConRFT包含离线和在线两个阶段，并采用统一的训练目标。该方法基于该团队之前提出的工作CPQL（一种基于一致性模型强化学习策略表征方法），将SFT与Q-learning结合，并利用一致性策略微调 VLA 模型。

离线微调过程中利用人类收集的专家数据，在模型与真实环境交互之前提取有效的策略和稳定的价值函数。

随后的在线微调阶段通过人类在回路干预，并使用奖励驱动的策略学习，解决了在真实环境下进行强化学习的安全性和样本效率两个挑战。

ConRFT采用一致性策略（Consistency Policy）作为动作单元，对 VLA 进行微调，解决了利用人类演示的预收集的数据中出现的策略不一致和数据质量良莠不齐的问题。与基于扩散模型的动作单元相比，能做到轻量计算，实现高效推理。

为了ConRFT在真实环境中的有效性，研究人员将基于ConRFT微调的VLA模型部署到Franka Emika 机械臂，选取了8个操作任务进行实验，包括拿起和放置香蕉、勺子，打开抽屉，拿起面包片并放在面包机烤制，挂中国结等。

实验证明，ConRFT 性能超越了最先进（SOTA）方法的能力。VLA 模型利用ConRFT经过 45-90 分钟的在线微调后，平均任务成功率能高达 96.3%，展现了极高的策略性能和样本效率。

基于ConRFT微调的VLA模型还表现出了超强的鲁棒性，能够抵御外部干扰。如下视频所示，在测试人员不断改变香蕉的位置后，机械臂依然能精准的拿起香蕉。

更厉害的是，基于ConRFT微调的VLA模型在精细操作任务上也表现优异。在穿针任务实验中能精准的将线穿过细小的针孔，成功率能达到70%。

6月9日晚7点，智猩猩邀请到论文一作、中科院自动化所博士生陈宇辉参与「智猩猩AI新青年讲座具身智能专题」第28讲，主讲《利用强化学习在真实环境下进行VLA后训练》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

更多问题...