[论文解读] Recurrent CNN for 3D Gaze Estimation using Appearance and Shape Cues
该论文提出了一种多模态循环卷积神经网络,通过融合外观(人脸和眼部区域)与形状(面部关键点)线索实现3D视线估计,利用多对一的RNN捕捉图像序列中的时序动态。在EYEDIAP数据集上,该方法相比SOTA性能提升14.6%,引入时序建模后进一步获得4%的增益,是首个有效利用序列数据的远程、第三人称视线估计方法。
Gaze behavior is an important non-verbal cue in social signal processing and human-computer interaction. In this paper, we tackle the problem of person- and head pose-independent 3D gaze estimation from remote cameras, using a multi-modal recurrent convolutional neural network (CNN). We propose to combine face, eyes region, and face landmarks as individual streams in a CNN to estimate gaze in still images. Then, we exploit the dynamic nature of gaze by feeding the learned features of all the frames in a sequence to a many-to-one recurrent module that predicts the 3D gaze vector of the last frame. Our multi-modal static solution is evaluated on a wide range of head poses and gaze directions, achieving a significant improvement of 14.6% over the state of the art on EYEDIAP dataset, further improved by 4% when the temporal modality is included.
研究动机与目标
- 利用远程RGB摄像头解决与个体及头部姿态无关的3D视线估计挑战。
- 在头部姿态、光照和视线方向存在真实世界变化的情况下提升模型泛化能力。
- 整合多模态线索——外观(人脸和眼部区域)与形状(面部关键点)——以增强特征表示。
- 利用眼动和头部运动的时序动态,提升静态图像分析之外的视线预测性能。
- 开发一种无需个体校准的、与受试者无关的自由头部视线估计系统。
提出的方法
- 采用多流3D卷积神经网络处理三个输入流:完整人脸图像、高分辨率眼部区域图像以及面部关键点热力图。
- 在最终全连接层之前通过晚期融合策略,将三个流的特征在分类头前进行融合。
- 将帧级特征序列输入多对一的循环神经网络(LSTM或GRU)以建模时序动态。
- 训练循环模块以仅使用最终隐藏状态来预测序列中最后一帧的3D视线向量。
- 使用均方角误差损失函数,配合Adam优化器和数据增强技术,提升模型鲁棒性。
- 将序列长度固定为4、7或10帧,评估其对性能的影响,并选择s=4或10作为最优设置。
实验结果
研究问题
- RQ1在多种头部姿态和视线方向下,将外观与形状线索结合于多流CNN是否能提升3D视线估计的准确性?
- RQ2与静态图像模型相比,引入图像序列中的时序信息是否能提升视线估计性能?
- RQ3引入面部关键点(提供几何形状信息)对模型泛化能力和鲁棒性有何影响?
- RQ4在何种场景下时序建模能带来最大收益,特别是与头部运动和视线方向的关系如何?
- RQ5所提出的循环架构是否在无需个体校准的远程、第三人称视线估计任务中表现有效?
主要发现
- 静态多模态CNN在EYEDIAP数据集的FT(自由头部)场景下,相比之前SOTA性能相对提升14.6%。
- 通过引入循环网络进行时序建模,相比静态模型,平均角误差进一步降低4%。
- 与静态模型相比,时序模型在统计上具有显著优势(p < 0.0001),尤其在头部运动条件下表现更优。
- 模型在中等范围视线方向下表现最佳,且最受益于头部运动;在极端姿态下提升较小,主要因数据分布不均所致。
- 单层GRU(128个单元)优于更深或更宽的网络结构,且s=4或10的序列长度优于s=7。
- 该方法是首个有效利用时序动态的远程、第三人称、与个体及头部姿态无关的视线估计系统。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。