生成式模型助力可泛化的具身智能

课程回放

生成式模型助力可泛化的具身智能

智猩猩AI新青年讲座具身智能专题 2025/02/28 15:00:00

课程讲师

胡开哲清华大学交叉信息学院博士生、斯坦福大学访问学者

清华大学交叉信息学院三年级博士生，师从许华哲教授。胡开哲的研究方向集中在具身智能泛化性、仿真到真实环境迁移等方向，在顶级AI、机器人、CV会议方向发表论文多篇，他的近期工作Stem-Ob，DenseMatcher在ICLR2025会议均获得spotlight展示。胡开哲自2024年8月起前往斯坦福大学Karen Liu组访问，目前项目仍在进行中。

胡开哲

清华大学交叉信息学院博士生、斯坦福大学访问学者

课程提纲

1、具身智能需要什么样的泛化性？
2、探讨泛化性从何处来
3、通用算法Stem-OB提高视觉模仿学习方法泛化性
4、DenseMatcher利用生成式模型提升三维物体的可供性泛化
5、具身智能泛化性的未来工作展望

课程简介

模仿学习是机器人通过观察专家的示范行为学习执行任务的方法。其中，视觉模仿学习是一种利用高维视觉观察的方法，用于特定任务的状态估计。然而在面对视觉输入扰动时，如照明和纹理变化，视觉模仿学习仍存在泛化性不足的问题。

为此，清华大学助理教授许华哲老师团队联合上海期智研究院、上海AI Lab、斯坦福大学，提出了一种基于生成式模型的通用算法Stem-OB，用于提高视觉模仿学习的泛化性。与Stem-OB相关的论文成果获得了ICLR 2025 Spotlight。其中，清华大学交叉信息学院博士生、斯坦福大学访问学者胡开哲为论文一作。

Stem-Ob利用扩散模型的反转过程来增加图像观测的噪声，能够在观测空间中去除和操作无关的大量细节，让模型学会集中在高层的语义信息上，进而显著提升机器人在视觉条件复杂且多变环境中的泛化性。

实验表明，在仿真环境和实际任务中，Stem-OB均能显著提升泛化性。在实际机器人任务中，面对复杂的光照和外观变化，Stem-OB 的平均成功率比最佳基线提高了22.2%。

此外，通过语义对应能够实现跨类别的泛化，提升机器人操控泛化性。许华哲老师团队提出一种机器人操控框架Robo-ABC，旨在使机器人能够泛化地理解和操作在训练时未见过的物体类别。该框架利用人类视频中的交互经验，通过语义对应帮助机器人在面对新物体时，通过检索与已知物体在视觉或语义上相似的物体，来推断新物体的可供性（即物体可被如何操作的特性）。与Robo-ABC相关的论文成果获得ECCV 2024 Poster。

然而，二维视角易受光照变化、遮挡和透视形变影响，难以捕捉三维几何结构。进而许华哲老师团队联合简厨科技等，在Robo-ABC基础上又引入了三维网络上的密集对应提出了DenseMatcher。DenseMatcher是一种能够计算真实世界中具有相似结构物体之间三维对应关系的方法。该方法能够让机器人通过观察一次操作，完成跨类别的复杂操作任务。它通过多视角特征和3D功能映射，使机器人精准找到物体对应点，实现智能模仿，性能提升了43.5%。与DenseMatcher相关的论文成果获得ICLR 2025 Spotlight，现已开源。

2月28日15点，智猩猩邀请到清华大学交叉信息学院博士生、斯坦福大学访问学者胡开哲参与「智猩猩AI新青年讲座具身智能专题」第21讲，以《生成式模型助力可泛化的具身智能》为主题带来直播讲解。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...