基于密集奖励的强化学习及在机械臂操作上的应用

课程回放

智猩猩AI新青年讲座 2022/07/01 10:00:00

课程讲师

吴峥加州大学伯克利分校在读博士

本科毕业于上海交通大学；目前主要研究方向为基于机器学习的工业装配任务，曾在ICRA, IROS, ICLR, Science Robotics等会议期刊上发表论文。

吴峥

加州大学伯克利分校在读博士

本科毕业于上海交通大学；目前主要研究方向为基于机器学习的工业装配任务，曾在ICRA, IROS, ICLR, Science Robotics等会议期刊上发表论文。

课程提纲

机械臂接触丰富操作任务的介绍
传统强化学习奖励学习方法的局限性
基于任务进度从多模态输入中学习奖励的方法
在机械臂操作任务上的应用

课程简介

机械臂强化学习近年来发展迅速，从运动规划、抓取放置到零件装配，都涌现了大量研究成果。尽管存在数据效率、交互安全、sim2real gap 等多方面的问题，强化学习以其智能决策的特点在机械臂领域依然大有应用前景。

机械臂强化学习的任务中，奖励函数起着至关重要的作用。为了达到所需的策略，设计合适的奖励函数通常需要大量的领域专业知识以及反复试验。来自加州大学伯克利分校的吴峥博士等人，为了最大限度地减少为接触丰富的操作任务设计奖励函数所涉及的工作量，提出了一种能够从机器人的高维观察（如图像和触觉反馈）中提取密集奖励函数的方法DREM（Dense Rewards for Multimodal Observations）。

与最先进的高维奖励学习方法相比，DREM不利用对抗性训练，因此不容易出现相关的训练不稳定性。相反，DREM通过以自我监督的方式估计任务进度来学习奖励。最后，通过7自由度机械臂在钉孔和USB插入两个接触丰富的操作任务上的实现，证明了其有效性和效率。实验结果也表明，与基线相比，用学习奖励函数训练的策略具有更好的性能和更快的收敛速度。

7月1日早10点，「AI新青年讲座」第132讲，加州大学伯克利分校在读博士吴峥将主讲《基于密集奖励的强化学习及在机械臂操作上的应用》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...