Skip to main content
QUICK REVIEW

[论文解读] Photo-Realistic Monocular Gaze Redirection Using Generative Adversarial Networks

Zhe He, Adrian Spurr|arXiv (Cornell University)|Jan 1, 2019
Gaze Tracking and Assistive Technology参考文献 35被引用 5
一句话总结

本文提出了一种基于GAN的方法,用于单目图像中逼真的视线重定向,能够生成高保真度的眼部图像,并精确控制视线方向。通过整合视线估计判别器、感知损失和循环一致性损失,该模型生成的输出在图像质量和视线重定向准确性方面优于先前方法,同时在用于数据增强时也提升了视线估计性能。

ABSTRACT

Gaze redirection is the task of changing the gaze to a desired direction for a given monocular eye patch image. Many applications such as videoconferencing, films, games, and generation of training data for gaze estimation require redirecting the gaze, without distorting the appearance of the area surrounding the eye and while producing photo-realistic images. Existing methods lack the ability to generate perceptually plausible images. In this work, we present a novel method to alleviate this problem by leveraging generative adversarial training to synthesize an eye image conditioned on a target gaze direction. Our method ensures perceptual similarity and consistency of synthesized images to the real images. Furthermore, a gaze estimation loss is used to control the gaze direction accurately. To attain high-quality images, we incorporate perceptual and cycle consistency losses into our architecture. In extensive evaluations we show that the proposed method outperforms state-of-the-art approaches in terms of both image quality and redirection precision. Finally, we show that generated images can bring significant improvement for the gaze estimation task if used to augment real training data.

研究动机与目标

  • 为解决单目眼部图像中视线重定向缺乏视觉上可信性的问题,特别是针对大角度视线变化的情况。
  • 开发一种在将视线重定向至目标方向时,仍能保持面部身份和纹理细节的方法。
  • 通过生成具有多样化视线角度的合成训练数据,提升视线估计性能。
  • 克服基于变形的方法在大遮挡情况下失效或产生不真实结果的局限性。

提出的方法

  • 采用条件GAN架构,其中生成器以真实眼部图像和目标视线方向作为输入,生成合成眼部图像。
  • 使用双用途判别器,不仅能区分真实与生成图像,还能估计视线方向,以强化准确性。
  • 采用预训练的VGG-Net计算感知损失,以对齐生成图像与真实图像之间的深层特征。
  • 应用循环一致性损失,从生成输出重建原始输入图像,以保留个性化特征。
  • 引入视线估计损失(Lgaze),直接监督生成图像中的视线方向。
  • 结合L1重建损失、感知损失(Lp)、循环一致性损失(Lrec)和视线损失(Lgaze)实现端到端训练。

实验结果

研究问题

  • RQ1基于GAN的方法能否在大视线角度变化下生成逼真的眼部图像并实现精确的视线重定向?
  • RQ2引入视线估计判别器后,与标准GAN相比,是否能同时提升图像真实感和方向准确性?
  • RQ3感知损失与循环一致性损失在多大程度上提升了生成图像的视觉保真度和身份一致性?
  • RQ4合成的视线重定向输出能否有效增强真实训练数据,从而提升视线估计性能?
  • RQ5与现有基于变形或无GAN的方法相比,该方法在图像质量和重定向精度方面是否表现更优?

主要发现

  • 在Columbia Gaze数据集上,使用增强数据训练的模型平均视线角度误差为6.9°,显著优于仅使用真实数据时的14.3°。
  • 在MPIIGaze数据集上,使用增强数据训练的视线估计器误差降至14.0°,而仅使用真实数据时为20.2°,表明泛化能力得到提升。
  • 包含所有损失(Lgaze、Lp、Lrec)的完整模型在LPIPS分数(0.4)和模糊度(2.5)上均表现最优,表明其具有更优的感知质量和清晰度。
  • 消融实验表明,若移除Lrec或Lgaze,图像质量和视线准确性均出现明显下降,证实二者具有关键作用。
  • 在定量指标和定性用户评估中,该模型均优于最先进方法,生成的视线重定向更逼真且一致。
  • 由模型生成的合成图像在用于增强训练数据时,能有效提升视线估计性能,证明其在下游任务中的实用价值。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。