[论文解读] MGGR: MultiModal-Guided Gaze Redirection with Coarse-to-Fine Learning
MGGR 提出了一种从粗到精的眼部视线重定向框架,通过利用眼图(eye-maps)和目标角度来提升图像质量和重定向精度。通过在粗分支中结合基于光流的粗略变换,以及在细分支中采用对抗性、条件化残差学习,并整合眼图引导,MGGR 在基准数据集上实现了最先进性能。
Gaze redirection aims at manipulating a given eye gaze to a desirable direction according to a reference angle and it can be applied to many real life scenarios, such as video-conferencing or taking groups. However, the previous works suffer from two limitations: (1) low-quality generation and (2) low redirection precision. To this end, we propose an innovative MultiModal-Guided Gaze Redirection~(MGGR) framework that fully exploits eye-map images and target angles to adjust a given eye appearance through a designed coarse-to-fine learning. Our contribution is combining the flow-learning and adversarial learning for coarse-to-fine generation. More specifically, the role of the proposed coarse branch with flow field is to rapidly learn the spatial transformation for attaining the warped result with the desired gaze. The proposed fine-grained branch consists of a generator network with conditional residual image learning and a multi-task discriminator to reduce the gap between the warped image and the ground-truth image for recovering the finer texture details. Moreover, we propose leveraging the gazemap for desired angles as an extra guide to further improve the precision of gaze redirection. Extensive experiments on a benchmark dataset show that the proposed method outperforms the state-of-the-art methods in terms of image quality and redirection precision. Further evaluations demonstrate the effectiveness of the proposed coarse-to-fine and gazemap modules.
研究动机与目标
- 解决现有眼部视线重定向方法在图像质量低和重定向精度低方面的局限性。
- 通过整合来自眼图图像和目标视线角度的多模态引导,提升眼部视线重定向性能。
- 开发一种从粗到精的学习策略,以增强全局空间变换和局部纹理细节恢复。
- 利用眼图作为辅助引导,以在图像生成过程中提高视线方向的准确性。
- 在视觉保真度和视线对齐方面,实现优于最先进方法的性能。
提出的方法
- 引入一个粗分支,利用光流场执行快速空间变换,将输入的眼部图像对齐至目标视线方向。
- 设计一个细粒度分支,采用条件化残差生成器,以恢复形变后眼部图像中的高保真纹理细节。
- 采用多任务判别器,以最小化生成图像与真实图像之间的感知和对抗性差异。
- 将眼图——即期望视线方向的热力图——作为额外的条件输入,以引导生成器,从而提升精度。
- 在端到端可训练框架中结合基于光流的粗略学习与对抗性微调,实现联合优化。
- 采用多阶段训练策略,首先优化粗分支,然后联合训练细分支与对抗性损失。
实验结果
研究问题
- RQ1与单阶段方法相比,从粗到精的学习策略是否能同时提升眼部视线重定向的效率和质量?
- RQ2将眼图作为辅助引导模态,对眼部视线重定向精度有何影响?
- RQ3将基于光流的变换与对抗性、残差学习相结合,能在多大程度上增强纹理细节恢复?
- RQ4所提出的多模态引导(眼图 + 目标角度)是否能带来图像质量与视线准确性的可测量提升?
- RQ5在定量指标和视觉保真度方面,MGGR 与最先进的眼部视线重定向模型相比表现如何?
主要发现
- MGGR 在基准数据集上,于图像质量和视线重定向精度方面均优于最先进的眼部视线重定向方法。
- 从粗到精的学习策略显著改善了视线方向的对齐,同时保持了逼真的眼部纹理。
- 将眼图作为引导模态,显著提升了重定向精度,尤其在具有挑战性的视线角度下效果更明显。
- 多任务判别器有效缩小了生成图像与真实图像之间的分布差距,增强了视觉真实感。
- 消融实验确认,粗分支的光流学习与细粒度对抗性分支均对性能有显著贡献。
- 所提出的框架在 LPIPS、FID 和视线误差等定量指标上均取得优越结果,展现出强大的鲁棒性与泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。