[论文解读] Rendering of Eyes for Eye-Shape Registration and Gaze Estimation
本文提出 SynthesEyes,一种基于合成的学习框架,通过从高分辨率头部扫描生成的动态可控3D眼区模型,生成逼真且完全标注的眼部图像。通过模拟多样的头部姿态、注视方向以及逼真的光照条件,该方法生成了高质量的训练数据,在眼形匹配注册与跨数据集注视估计任务中均优于当前最先进方法,证明了对外观和几何具有精确控制的合成数据的有效性。
Images of the eye are key in several computer vision problems, such as shape registration and gaze estimation. Recent large-scale supervised methods for these problems require time-consuming data collection and manual annotation, which can be unreliable. We propose synthesizing perfectly labelled photo-realistic training data in a fraction of the time. We used computer graphics techniques to build a collection of dynamic eye-region models from head scan geometry. These were randomly posed to synthesize close-up eye images for a wide range of head poses, gaze directions, and illumination conditions. We used our model's controllability to verify the importance of realistic illumination and shape variations in eye-region training data. Finally, we demonstrate the benefits of our synthesized training data (SynthesEyes) by out-performing state-of-the-art methods for eye-shape registration as well as cross-dataset appearance-based gaze estimation in the wild.
研究动机与目标
- 解决为计算机视觉任务收集和标注大规模高质量眼部图像数据集的挑战。
- 克服现有合成数据的局限性,这些数据通常缺乏逼真的光照、材质属性和几何细节。
- 通过完全可控的逼真合成数据,实现鲁棒的眼形匹配注册与基于外观的注视估计模型训练。
- 证明在跨数据集评估设置下,合成数据可实现与真实世界数据相当或更优的性能。
提出的方法
- 从密集3D头部扫描(140万个多边形)构建动态高保真3D眼区模型,并重新拓扑为9,005个多边形以支持动画。
- 利用高分辨率位移贴图恢复精细皮肤表面细节,并手动标注了虹膜与眼睑的3D关键点。
- 采用基于图像的光照(IBL)技术,模拟多样化环境与光照条件下的逼真光照变化。
- 随机采样头部姿态、注视方向与光照配置,生成大规模且多样化的训练数据集(SynthesEyes)。
- 利用模型的可控特性,验证逼真光照与形状变化对模型性能的影响。
- 在SynthesEyes上分别训练两个模型:用于形状匹配注册的可变形眼区模型,以及用于基于外观的注视估计的卷积神经网络(CNN)。
实验结果
研究问题
- RQ1与真实世界数据相比,使用精确真实标注的逼真合成眼部图像是否能提升眼形匹配注册的性能?
- RQ2合成训练数据中逼真的光照变化在多大程度上能增强注视估计模型的泛化能力?
- RQ3在跨数据集注视估计场景中,使用合成生成数据训练的模型与真实世界数据集相比表现如何?
- RQ4针对特定头部姿态与注视范围的定向数据合成,是否能提升用于笔记本电脑注视交互等真实应用场景的性能?
- RQ5个体之间眼形与肤色的差异如何影响基于合成数据训练的外观注视估计模型的泛化能力?
主要发现
- SynthesEyes数据集在MPIIGaze数据集上的跨数据集注视估计任务中平均误差为13.91°,与在真实UT Multiview数据集上训练的模型性能相当(13.55°)。
- 针对笔记本电脑注视交互的定向合成(10°姿态,20°注视变化)将平均误差降低至7.90°,显著优于UT数据集(p < 0.0001)。
- 使用真实UT数据微调最初在SynthesEyes上预训练的CNN,可将误差进一步降低至11.12°(非定向)和7.90°(定向),优于当前最先进结果(13.91°)。
- 眼模型皮肤色调或眼形不匹配会导致泛化性能差,部分模型(如f3、m2、m4)在MPIIGaze受试者上产生显著更高的误差。
- 数据集内训练与跨数据集训练之间的性能差距依然存在,表明仅靠合成数据可能无法完全捕捉真实世界中的多样性。
- 本研究证实,逼真的光照与几何变化对模型鲁棒泛化至关重要,且具有高度可控性的合成数据可有效支持复杂视觉任务。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。