
在校期间获博士生国奖等荣誉。 其研究方向为基于大语言模型智能体、多模态推理和具身模型等,在ACL、EMNLP、ICLR、NIPS、IJCAI等会议发表论文十余篇,担任ACL \ EMNLP会议Area Chair以及ICLR\NIPS\ICCV等多个会议审稿人,曾获得CIKM Distinguish Reviewer等. 曾开发了数据分析智能体Data-Copilot,在github上获得超过 1500 stars,并入选ICLR2024 LLM Agent Workshop Outstanding Paper, 开发multimodal textbook,首月在HuggingFace上超过15000次下载。

在校期间获博士生国奖等荣誉。 其研究方向为基于大语言模型智能体、多模态推理和具身模型等,在ACL、EMNLP、ICLR、NIPS、IJCAI等会议发表论文十余篇,担任ACL \ EMNLP会议Area Chair以及ICLR\NIPS\ICCV等多个会议审稿人,曾获得CIKM Distinguish Reviewer等. 曾开发了数据分析智能体Data-Copilot,在github上获得超过 1500 stars,并入选ICLR2024 LLM Agent Workshop Outstanding Paper, 开发multimodal textbook,首月在HuggingFace上超过15000次下载。
- 1、基于o1、R1范式的推理模型和多模态推理
- 2、现有具身模型在解决具身推理和交互时的挑战
- 3、合成观察-思考-行动交织的具身推理数据
- 4、训练交互式具身推理模型Embodied-Reasoner
- 5、实验分析和真实场景测试
OpenAI o1、Deepseek-R1的发布掀起了推理模型的研究热潮,这些模型在数学、代码等领域展现出了超强的推理能力。而在具身智能领域,如何利用推理模型帮助机器人完成复杂的交互任务,目前仍未被探索。
为此,来自浙江大学、中科院软件所和阿里巴巴等团队提出了Embodied-Reasoner,让机器人拥有深度思考和交互决策能力,从而在真实物理世界完成环境探索、隐藏物体搜索、交互和搬运等长序列复杂任务。
Embodied-Reasoner将深度思考能力扩展到具身交互任务。其主要包括两个关键点:
1)纯文本模态上的推理几乎无法解决这种长序列的具身任务。因此,Embodied-Reasoner设计了图文交织的思维链——观察-思考-行动多模态思维链,集成了图片缩放、裁剪等中间动作。
2)Embodied-Reasoner设计了多样化的思考因子适应不同的交互阶段,能够促进模型从不同角度进行推理和思考。主要包括情景分析、任务规划、空间推理、行为反思和多重验证等。
为了增强推理能力,该模型设计了三个训练阶段:模仿学习、拒绝采样微调和反思调优,这些阶段将通用视觉语言模型逐步提升为具有深度思考能力的交互式具身推理模型。
研究人员为三个训练阶段合成了9,390个独特的任务指令及其观察-思考-行动轨迹数据。所有合成的数据集涵盖了107个多样化的室内场景,包括2,100个可交互物体以及2,600个容器。所有轨迹包含64K张第一人称视角的观察图像和8M个思考token。
研究人员通过实验对比了Embodied-Reasoner与通用VLMs和其他视觉推理模型。实验表明,Embodied-Reasoner显著优于所有推理模型和 VLMs,尤其在复杂任务上表现更为突出,在复合任务上比GPT-4o高出 39.9%。
Embodied-Reasoner规模小于先进推理模型,减少了其他模型常见的重复搜索和不合理规划问题,展现出更强的深度思考和自我反思能力。
5月27日晚7点,智猩猩邀请到论文一作、浙江大学计算机学院四年级博士生张文祺参与「智猩猩AI新青年讲座具身智能专题」第27讲,主讲《具身推理模型Embodied-Reasoner让机器人学会思考与交互》。
