QUICK REVIEW

[论文解读] Recurrent CNN for 3D Gaze Estimation using Appearance and Shape Cues

Cristina Palmero, Javier Selva|arXiv (Cornell University)|May 8, 2018

Gaze Tracking and Assistive Technology参考文献 24被引用 26

一句话总结

该论文提出了一种多模态循环卷积神经网络，通过融合外观（人脸和眼部区域）与形状（面部关键点）线索实现3D视线估计，利用多对一的RNN捕捉图像序列中的时序动态。在EYEDIAP数据集上，该方法相比SOTA性能提升14.6%，引入时序建模后进一步获得4%的增益，是首个有效利用序列数据的远程、第三人称视线估计方法。

ABSTRACT

Gaze behavior is an important non-verbal cue in social signal processing and human-computer interaction. In this paper, we tackle the problem of person- and head pose-independent 3D gaze estimation from remote cameras, using a multi-modal recurrent convolutional neural network (CNN). We propose to combine face, eyes region, and face landmarks as individual streams in a CNN to estimate gaze in still images. Then, we exploit the dynamic nature of gaze by feeding the learned features of all the frames in a sequence to a many-to-one recurrent module that predicts the 3D gaze vector of the last frame. Our multi-modal static solution is evaluated on a wide range of head poses and gaze directions, achieving a significant improvement of 14.6% over the state of the art on EYEDIAP dataset, further improved by 4% when the temporal modality is included.

研究动机与目标

利用远程RGB摄像头解决与个体及头部姿态无关的3D视线估计挑战。
在头部姿态、光照和视线方向存在真实世界变化的情况下提升模型泛化能力。
整合多模态线索——外观（人脸和眼部区域）与形状（面部关键点）——以增强特征表示。
利用眼动和头部运动的时序动态，提升静态图像分析之外的视线预测性能。
开发一种无需个体校准的、与受试者无关的自由头部视线估计系统。

提出的方法

采用多流3D卷积神经网络处理三个输入流：完整人脸图像、高分辨率眼部区域图像以及面部关键点热力图。
在最终全连接层之前通过晚期融合策略，将三个流的特征在分类头前进行融合。
将帧级特征序列输入多对一的循环神经网络（LSTM或GRU）以建模时序动态。
训练循环模块以仅使用最终隐藏状态来预测序列中最后一帧的3D视线向量。
使用均方角误差损失函数，配合Adam优化器和数据增强技术，提升模型鲁棒性。
将序列长度固定为4、7或10帧，评估其对性能的影响，并选择s=4或10作为最优设置。

实验结果

研究问题

RQ1在多种头部姿态和视线方向下，将外观与形状线索结合于多流CNN是否能提升3D视线估计的准确性？
RQ2与静态图像模型相比，引入图像序列中的时序信息是否能提升视线估计性能？
RQ3引入面部关键点（提供几何形状信息）对模型泛化能力和鲁棒性有何影响？
RQ4在何种场景下时序建模能带来最大收益，特别是与头部运动和视线方向的关系如何？
RQ5所提出的循环架构是否在无需个体校准的远程、第三人称视线估计任务中表现有效？

主要发现

静态多模态CNN在EYEDIAP数据集的FT（自由头部）场景下，相比之前SOTA性能相对提升14.6%。
通过引入循环网络进行时序建模，相比静态模型，平均角误差进一步降低4%。
与静态模型相比，时序模型在统计上具有显著优势（p < 0.0001），尤其在头部运动条件下表现更优。
模型在中等范围视线方向下表现最佳，且最受益于头部运动；在极端姿态下提升较小，主要因数据分布不均所致。
单层GRU（128个单元）优于更深或更宽的网络结构，且s=4或10的序列长度优于s=7。
该方法是首个有效利用时序动态的远程、第三人称、与个体及头部姿态无关的视线估计系统。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。