绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
具身场景零样本3D视觉定位方法SeeGround
智猩猩AI新青年讲座具身智能专题 2025/04/23 19:00:00
课程讲师
孔令东 新加坡国立大学 计算机系在读博士

新加坡国立大学计算机系博士在读,本科毕业于华南理工大学。于上海人工智能实验室、英伟达研究院、字节跳动AI Lab等机构进行科研实习。研究方向为3D场景感知、理解与生成。相关研究成果发表于TPAMI、CVPR、ICCV、ECCV、NeurIPS、ICLR等国际期刊和会议中。

孔令东
新加坡国立大学 计算机系在读博士

新加坡国立大学计算机系博士在读,本科毕业于华南理工大学。于上海人工智能实验室、英伟达研究院、字节跳动AI Lab等机构进行科研实习。研究方向为3D场景感知、理解与生成。相关研究成果发表于TPAMI、CVPR、ICCV、ECCV、NeurIPS、ICLR等国际期刊和会议中。

新加坡科技研究局研究科学家,于2024年在德国波恩大学取得博士学位。曾在阿里巴巴达摩研究院,英特尔研究院和高通研究院实习。研究兴趣是自动驾驶以及机器人视觉,在TPAMI、TNNLS、ICCV、ICRA等会议和期刊上发表文章。

新加坡科技研究局研究科学家,于2024年在德国波恩大学取得博士学位。曾在阿里巴巴达摩研究院,英特尔研究院和高通研究院实习。研究兴趣是自动驾驶以及机器人视觉,在TPAMI、TNNLS、ICCV、ICRA等会议和期刊上发表文章。

李蓉 香港科技大学(广州) 香港科技大学 (广州) 人工智能学域博士生

香港科技大学 (广州) 人工智能学域二年级博士生,导师是梁俊卫教授。曾于法国国家信息与自动化研究所 (Inria) 实习。研究方向为三维场景理解与具身智能。相关研究成果发表于TPAMI、CVPR、ICCV等国际期刊和会议中。

李蓉
香港科技大学(广州) 香港科技大学 (广州) 人工智能学域博士生

香港科技大学 (广州) 人工智能学域二年级博士生,导师是梁俊卫教授。曾于法国国家信息与自动化研究所 (Inria) 实习。研究方向为三维场景理解与具身智能。相关研究成果发表于TPAMI、CVPR、ICCV等国际期刊和会议中。

课程提纲
  • 1、3D视觉定位相关工作概述
  • 2、SeeGround方法介绍
  • 3、SeeGround提升VLM空间理解能力
  • 4、实验结果评估与分析
  • 5、3D视觉定位前景与应用
课程简介

近年来,3D视觉定位(3DVG)技术在增强现实和机器人领域取得了重要进展,但现有方法普遍依赖大规模3D标注数据,难以在零样本、开放词汇场景下实现泛化。

为此,香港科技大学(广州)、新加坡A*STAR研究院和新加坡国立大学的研究团队提出了一种全新的零样本3DVG框架SeeGround。该框架通过2D视觉语言模型(VLM)完成3D物体定位,无需任何3D标注数据即可在复杂场景中实现精确定位。

4月23日上午19点,智猩猩邀请到论文一作、香港科技大学 (广州) 人工智能学域博士生李蓉,新加坡科技研究局研究科学家李仕杰,以及新加坡国立大学计算机系在读博士孔令东参与「智猩猩AI新青年讲座具身智能专题」第26讲,主讲《具身场景零样本3D视觉定位方法SeeGround》。

主 要 创 新

SeeGround 通过两个关键模块解决了现有方法在空间理解上的不足:

● 透视自适应模块(Perspective Adaptation Module, PAM)

○ PAM通过动态视角选择生成2D渲染图,帮助VLM更好地理解物体间的空间关系。○ 解析文本输入,识别锚定物体(Anchor Object),根据其位置计算最佳观察角度,调整虚拟摄像机的角度,生成符合空间描述的2D图像。○ 该动态视角选择策略使VLM在涉及相对空间位置(如“桌子右边的椅子”)的定位任务中表现更为精准。

● 融合对齐模块(Fusion Alignment Module, FAM)

○ FAM通过视觉提示增强(Visual Prompting)技术,将2D视觉特征与3D坐标信息对齐,提升定位精度。○ 利用对象查找表(Object Lookup Table, OLT)提取所有物体的3D坐标,通过投影技术在2D图像上生成对应位置标注。○ 在VLM推理阶段,结合2D视觉特征和3D空间信息,显著提升多目标定位的准确率和鲁棒性。

实 验 结 果

SeeGround 在 ScanRefer 和 Nr3D 数据集上进行了广泛的实验验证:

● 在ScanRefer数据集上的定位准确率达到62.3%,比现有零样本方法提升了9.2%。● 在Nr3D数据集上的定位准确率为60.8%,显著超过其他方法。● 在未见类别和未见场景的任务中,SeeGround 的性能接近甚至超越部分弱监督和全监督方法。● 在消融实验中,去除部分文本信息(例如移除空间锚定描述)后,SeeGround 仍然能够基于视觉提示进行准确定位,展现出卓越的泛化能力。

此外,SeeGround 在多个复杂场景下均展示出稳健性和强大的跨模态理解能力:● 在包含遮挡和复杂背景的场景中,定位准确率显著优于现有方法。● 在涉及长文本描述和复杂空间指令的任务中,SeeGround 能够准确理解目标位置并生成精确的3D坐标。

应 用 场 景

● 增强现实(AR):在AR设备中实现自然语言与3D物体的交互。● 机器人导航:帮助机器人在复杂环境中自主定位与操作。● 智能家居:根据语音或文本指令,快速定位房间内的目标物体。● 3D建模与可视化:在复杂3D场景中进行高效建模和精细可视化。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...