深度强化学习的多任务迁移及其在机器人上的应用

课程回放

智猩猩AI新青年讲座 2022/08/31 19:00:00

课程讲师

穆尧香港大学在读博士

师从罗平教授，共在NeurIPS, ICML, ICLR, CVPR, IJCAI，IEEE TNNLS等顶会顶刊发表论文14篇, 累计发表文章20余篇, 曾获 ICCAS2020 大会最优学生论文奖，IEEE IV2021 最优学生论文提名奖等多项学术奖励, 于2021年在清华大学取得硕士学位，荣获香港博士政府奖学金，香港大学校长奖学金，国家奖学金，清华大学优秀硕士毕业生，清华大学优秀硕士论文奖等荣誉称号。研究方向: 具身智能、强化学习、机器人控制和自动驾驶。个人主页：yaomarkmu.github.io

穆尧

香港大学在读博士

课程提纲

视觉控制在机器人中的应用与挑战
基于CtrlFormer的深度强化学习多任务迁移
对比强化学习训练框架
机器人控制任务中的视觉泛化性

课程简介

深度强化学习已经广泛应用于工业制造、仿真模拟、机器人控制、优化与调度、游戏博弈等领域。其中，用于视觉控制的深度强化学习旨在学习给定观察图像的最优策略，实现了对机器人的行为控制。但受自身学习能力的制约，在处理高维状态与动作空间下的控制问题时，存在样本利用率低以及算法不易收敛等缺陷，严重限制了深度强化学习方法对机器人运动的控制能力。

随着Transformer在学习视觉和语言表示方面取得了巨大的成功，将Transformer引入视觉控制模型中成为研究人员的一种新选择。在视觉控制中，学习可在不同控制任务间迁移的可迁移状态表示，对于提升样本利用率具有重要意义。然而，将Transformer移植到采样高效的视觉控制仍然有很大的难度。

为此，香港大学穆尧博士等人提出了一种新颖的控制Transformer框架CtrlFormer。CtrlFormer在不同控制任务之间联合学习视觉令牌和策略令牌之间的自注意力机制，可以在不发生灾难性遗忘的情况下学习和迁移多任务表示。此外，还设计了一个对比强化学习范式来训练CtrlFormer，使其能够达到较高的样本效率。

在DMControl基准测试中，最近的先进方法在使用100k样本迁移学习后在“Cartpole”任务中产生零分而失败，而CtrlFormer可以在仅使用100k样本的情况下获得769±34的最先进的分数，同时保持之前任务的性能。

8月31日晚7点，「AI新青年讲座」第152讲邀请到香港大学在读博士穆尧参与，主讲《深度强化学习的多任务迁移及其在机器人上的应用》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...