扩散模型生成图像中的扭曲手修复

智猩猩AI新青年讲座 2024/12/25 19:00:00

课程讲师

秦震岳澳大利亚国立大学博士

博士和本科均毕业于澳大利亚国立大学，本科获一等荣誉。博士毕业后工作于澳大利亚AI公司Seeing Machines，任机器学习科学家，以及于腾讯互动娱乐事业群（IEG），任高级研究员，有幸与Hongdong Li教授一起工作。在CVPR，AAAI，EMNLP，TNNLS等知名会议期刊发表论文6篇，研究方向主要为三维计算机视觉。目前任耶鲁大学博士后，研究方向为眼科医疗及多模态大模型。

秦震岳

澳大利亚国立大学博士

课程提纲

1、扩散模型生成图像时的手部扭曲问题
2、端到端自动化工具的必要性和重要性
3、利用HandCraft精确修复扭曲手部的解剖结构
4、实验结果分析及难样例的处理
5、总结

课程简介

文本到图像扩散模型能够生成多样化、高质量的图像。但在手部渲染上存在困难，常产生解剖结构不正确的手部，从而导致“恐怖谷”效应。

为此，Seeing Machines联合澳大利亚国立大学提出，用于修复扩散模型生成图像中扭曲手部的端到端工具HandCraft。HandCraft能够与现有的预训练扩散模型无缝兼容，采用即插即用的设计，无需额外的微调或训练。相关论文成果收录于WACV 2025顶会上。

HandCraft利用自动生成的手部模板图作为条件信号，能够修复扩散模型生成图像中的扭曲手部，使其解刨结构正确，实现精准的局部修复，不影响图像的其他部分；同时保持图像的姿势、颜色和风格一致，提高了图像的真实感，避免了“恐怖谷”效应。

该团队还提出了MalHand数据集，其中包含多种风格中形态错误的手部生成图像，用于手部检测训练和手部修复基准测试；并通过定性和定量的评估展示了HandCraft在恢复手部解剖正确性的同时，还能保持图像整体的完整性。

12月25日晚7点，智猩猩邀请到论文一作、澳大利亚国立大学博士秦震岳参与「智猩猩AI新青年讲座」第261讲，主讲《扩散模型生成图像中的扭曲手修复》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...