博士和本科均毕业于澳大利亚国立大学,本科获一等荣誉。博士毕业后工作于澳大利亚AI公司Seeing Machines,任机器学习科学家,以及于腾讯互动娱乐事业群(IEG),任高级研究员,有幸与Hongdong Li教授一起工作。在CVPR,AAAI,EMNLP,TNNLS等知名会议期刊发表论文6篇,研究方向主要为三维计算机视觉。目前任耶鲁大学博士后,研究方向为眼科医疗及多模态大模型。
- 1、扩散模型生成图像时的手部扭曲问题
- 2、端到端自动化工具的必要性和重要性
- 3、利用HandCraft精确修复扭曲手部的解剖结构
- 4、实验结果分析及难样例的处理
- 5、总结
文本到图像扩散模型能够生成多样化、高质量的图像。但在手部渲染上存在困难,常产生解剖结构不正确的手部,从而导致“恐怖谷”效应。
为此,Seeing Machines联合澳大利亚国立大学提出,用于修复扩散模型生成图像中扭曲手部的端到端工具HandCraft。HandCraft能够与现有的预训练扩散模型无缝兼容,采用即插即用的设计,无需额外的微调或训练。相关论文成果收录于WACV 2025顶会上。
HandCraft利用自动生成的手部模板图作为条件信号,能够修复扩散模型生成图像中的扭曲手部,使其解刨结构正确,实现精准的局部修复,不影响图像的其他部分;同时保持图像的姿势、颜色和风格一致,提高了图像的真实感,避免了“恐怖谷”效应。
该团队还提出了MalHand数据集,其中包含多种风格中形态错误的手部生成图像,用于手部检测训练和手部修复基准测试;并通过定性和定量的评估展示了HandCraft在恢复手部解剖正确性的同时,还能保持图像整体的完整性。
12月25日晚7点,智猩猩邀请到论文一作、澳大利亚国立大学博士秦震岳参与「智猩猩AI新青年讲座」第261讲,主讲《扩散模型生成图像中的扭曲手修复》。