官善琰研究员获上海交通大学博士学位(2024),师从杨小康教授、王韫博副教授,在TPAMI、NeurIPS、CVPR等CCF-A类期刊会议上发表论文8篇,研究方向为不完备信息条件下的三维运动推理。当前研究兴趣集中在基于直觉的物理动态推理以及生成式人像编辑。个人github:github.com/syguan96。
官善琰研究员获上海交通大学博士学位(2024),师从杨小康教授、王韫博副教授,在TPAMI、NeurIPS、CVPR等CCF-A类期刊会议上发表论文8篇,研究方向为不完备信息条件下的三维运动推理。当前研究兴趣集中在基于直觉的物理动态推理以及生成式人像编辑。个人github:github.com/syguan96。
- 1、一般视觉反演框架存在的问题
- 2、高效个性化属性反演框架HybridBooth解析
- 3、动力学视觉反演
- -NeuroFluid解决视觉场景逆问题理解流体动力学。
- -神经材质适配器NeuMA提升内在动态建模精度。
- 4. 实验比较与分析
文本到图像的扩散模型在文本提示的指导下展示了前所未有的创作能力,例如在视觉艺术、合成数据集构建以及市场营销和广告中的图像编辑等创意工作。然而,基于特定主题生成个性化实例仍然具有挑战性。
为此,vivo影像规划预研部研究员官善琰等提出一种新的框架HybridBooth。该框架融合了基于优化和直接回归方法的优点,创造一种平衡质量和速度的混合方法,从而实现了高效、精确的主题驱动生成。相关论文成果收录于ECCV 2024。
同时,深度学习在模拟复杂粒子系统(如流体)的物理动力学方面显示出巨大的潜力。然而,神经网络是否可以直接从观察到的图像推断流体动力学仍然是一个悬而未决的问题。对此官善琰研究员等提出了神经流体NeuroFluid,其为首个基于粒子的流体动力学的无监督学习解决方案。相关论文成果收录于ICML 2022。
NeuroFluid关键思想是在端到端可训练的框架中,将基于粒子的流体模拟与粒子驱动的神经渲染连接起来,使两个网络可以联合优化,从而获得两者之间合理的粒子表示。实验数据表明,NeuroFluid学习了更加合理的流体动力学,可以在动态基础、预测和新视图合成方面产生不错的结果。
《易经·说卦》有言:“穷理尽性,以至于命”。 人类能够轻松辨别内在动态并适应新场景,但如何赋予机器像人类一样“观察、理解和推理”物理世界的能力往往面临巨大挑战。针对如何从视觉观察中准确地推断出实际的内在动力学问题,官善琰研究员等提出了基于学习且具有物理知识先验的神经材料适配器NeuMA。相关论文成果收录于NeurIPS 2024。
NeuMA促进对实际动态的准确学习,同时保持物理先验的通用性和可解释性。此外,还提出了一种粒子驱动的3D高斯溅射变体Particle-GS,能够连接模拟和观察到的图像,允许通过反向传播图像梯度来优化模拟器。
在不同材料和初始条件下对不同动态场景下的 NeuMA 进行了评估。该方法在物体动态基础和动态场景渲染方面具有竞争力,同时在新形状、多物体交互和长时间预测方面具有良好的泛化性。
11月19日19点,智猩猩邀请到vivo影像规划预研部研究员官善琰参与「智猩猩通用视觉讲座」04讲,主讲《基于视觉的物理规律反演》。讲座过程中将会分析当前视觉反演框架的局限性,介绍HybridBooth框架如何提升个性化反演精度,NeuroFluid在流体动力学中的应用,以及NeuMA神经材质适配器在内在动态建模中的优势。这些方法为基于视觉的物理规律反演提供了新的技术路径。