- 课程回放
多模态新任务——三维场景问答3DQA
智猩猩AI新青年讲座 2022/09/09 18:00:00
课程讲师
课程提纲
- 多模态三维场景问答任务
- 真实场景问答数据集ScanQA
- 基于Transformer的三维场景问答模型3DQA-TR
- 多种问答模型的有效性验证和前景思考
课程简介
视觉问答(VQA)是近年来兴起的一个研究领域,可以应用到机器人交互、VR/AR、自动驾驶汽车导航等很多有趣的任务中。目前大部分研究成果都只集中在2D图像问答任务上,而很少扩展到三维场景中。这是因为三维场景问答对3D几何理解的要求明显更高,不仅需要了解外观,还要了解单个对象的几何结构,甚至不同对象之间的空间关系进行关联。
香港城市大学可视化计算实验室在读博士叶舒泉等人在最新的研究中,将VQA扩展到3DQA,使用几何编码器和外观编码器分别从点云和颜色点云中提取几何和外观信息,并依此提出了第一个基于Transformer的3D场景问答模型3DQA-TR。其中,几何编码器在考虑单个对象的几何特征的同时,还要明确地将坐标和尺度结合到空间嵌入中,以便对对象之间的空间关系进行建模,外观编码器获取对象的颜色信息,并在与颜色相关的问题上进行预训练。最后通过使用3D-L BERT执行几何编码器、外观编码器和语言标记器的融合以预测目标答案。
针对3DQA任务,目前学术界还没有相关的可用数据集,因此叶舒泉博士等人还收集了第一个面向3DQA任务的数据集ScanQA。它建立在真实世界的室内场景数据集ScanNet之上,可以自由改变视点并提出不同类型的问题,包含806个场景的5807个问题和28450个答案。通过在该数据集上的大量实验和分析证明,3DQA-TR相较于现有的VQA框架是有着明显优势的。
9月9日晚6点,「AI新青年讲座」第156讲邀请到3DQA-TR一作、香港城市大学可视化计算实验室在读博士叶舒泉参与,主讲《多模态新任务——三维场景问答3DQA》。
精彩问答
提问
提问
