QUICK REVIEW

[论文解读] Deep Temporal Appearance-Geometry Network for Facial Expression Recognition

Heechul Jung, Sihaeng Lee|arXiv (Cornell University)|Mar 5, 2015

Face recognition and analysis参考文献 19被引用 44

一句话总结

本文提出了一种深度时间外观-几何网络（DTAGN），通过独立的CNN和DNN分支，联合学习图像序列中的时间外观特征与面部关键点轨迹中的几何特征。通过融合这些互补的表征，该模型在CK+和Oulu-CASIA数据集上实现了最先进性能，识别准确率显著提升，并能自动检测关键面部动作点。

ABSTRACT

Temporal information can provide useful features for recognizing facial expressions. However, to manually design useful features requires a lot of effort. In this paper, to reduce this effort, a deep learning technique which is regarded as a tool to automatically extract useful features from raw data, is adopted. Our deep network is based on two different models. The first deep network extracts temporal geometry features from temporal facial landmark points, while the other deep network extracts temporal appearance features from image sequences . These two models are combined in order to boost the performance of the facial expression recognition. Through several experiments, we showed that the two models cooperate with each other. As a result, we achieved superior performance to other state-of-the-art methods in CK+ and Oulu-CASIA databases. Furthermore, one of the main contributions of this paper is that our deep network catches the facial action points automatically.

研究动机与目标

为解决手动设计面部表情识别时间特征所面临的劳动密集且常具模糊性的问题。
通过使用轻量化、互补的深度网络，克服小规模面部表情数据库（如CK+、Oulu-CASIA、MMI）中的过拟合问题。
从原始数据中自动学习具有判别性的面部动作点与时间运动模式，无需手工特征工程。
通过在统一框架中融合基于外观与基于几何的深度表征，提升识别准确率。

提出的方法

该方法采用双分支深度网络：一个分支通过3D CNN（DTAN）处理图像序列，提取时空外观特征。
第二个分支通过深度神经网络（DTGN）处理面部关键点的时间轨迹，提取几何运动模式。
两条网络分别在图像序列和关键点数据上独立训练，其输出通过加权求和进行融合。
网络架构采用ReLU激活函数，使用Dropout进行正则化，并通过局部对比度归一化与眼坐标归一化进行输入预处理。
模型采用随机梯度下降进行端到端训练，超参数如融合权重α通过人工调优。
预处理使用公开可用的工具进行面部关键点检测与人脸归一化，确保可复现性。

实验结果

研究问题

RQ1深度学习模型能否从原始图像序列与面部关键点数据中自动提取有意义的时间外观与几何特征，用于面部表情识别？
RQ2基于外观与基于几何的深度网络在提升识别性能方面如何实现互补？
RQ3该模型在无需手工特征工程的情况下，能在多大程度上检测并学习关键面部动作点？
RQ4与单模态或手工特征方法相比，外观与几何表征的融合是否能带来更优越的性能？

主要发现

所提出的DTAGN模型在CK+数据集上实现了最高识别准确率，优于所有其他最先进方法。
在Oulu-CASIA数据集上，模型达到82.5%的准确率，表明其在具有多样化条件的数据集上具备强大泛化能力。
MMI数据集的混淆矩阵显示，恐惧情绪的误分类率最高，57.14%的恐惧样本被错误预测为惊讶。
失败分析表明，恐惧表情在视觉上常与惊讶或悲伤相似，凸显了需要更多样化的训练数据。
DTAN与DTGN分支具有互补性：DTAN擅长捕捉帧间差异，而DTGN能自动学习显著的面部动作点。
尽管训练集规模较小（30名受试者），该模型在MMI数据集上仍取得了第二好的整体准确率，表明其对领域偏移具有鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。