[论文解读] Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?
该论文表明,用于面部表情识别训练的深度卷积神经网络(CNN)在没有显式AU监督的情况下,隐式地学会了检测面部动作单元(FAUs)。通过可视化特征图并将滤波器激活与真实FAU标签相关联,作者发现特定神经元会对与AU相关的面部区域产生响应——证实CNN学习到了具有生物学合理性的面部运动单元。该模型在CK+和TFD数据集上达到了最先进性能。
Despite being the appearance-based classifier of choice in recent years, relatively few works have examined how much convolutional neural networks (CNNs) can improve performance on accepted expression recognition benchmarks and, more importantly, examine what it is they actually learn. In this work, not only do we show that CNNs can achieve strong performance, but we also introduce an approach to decipher which portions of the face influence the CNN's predictions. First, we train a zero-bias CNN on facial expression data and achieve, to our knowledge, state-of-the-art performance on two expression recognition benchmarks: the extended Cohn-Kanade (CK+) dataset and the Toronto Face Dataset (TFD). We then qualitatively analyze the network by visualizing the spatial patterns that maximally excite different neurons in the convolutional layers and show how they resemble Facial Action Units (FAUs). Finally, we use the FAU labels provided in the CK+ dataset to verify that the FAUs observed in our filter visualizations indeed align with the subject's facial movements.
研究动机与目标
- 探究用于表情识别训练的深度CNN是否学习到了超越简单外观的有意义面部特征。
- 确定CNN中的滤波器是否对应于埃克曼FACS定义的生物相关面部动作单元(FAUs)。
- 评估CNN在CK+和TFD等既定表情识别基准上的性能是否达到最先进水平。
- 通过真实FAU标注验证滤波器激活是否与实际受试者面部运动一致。
提出的方法
- 训练了一个无偏置的CNN,包含三层卷积层(64、128、256个滤波器),使用ReLU激活函数,并采用最大池化/四元池化进行特征提取。
- 使用去卷积网络可视化第三卷积层中各个滤波器被最大激发时的空间模式。
- 应用KL散度比较有无每个FAU的训练样本的激活分布,以识别最影响每个滤波器的AU。
- 将滤波器可视化结果与CK+数据集中的FAU标签相关联,以验证学习到的特征与实际面部运动之间的一致性。
- 在扩展的Cohn-Kanade(CK+)和多伦多人脸数据集(TFD)基准上评估模型性能。
实验结果
研究问题
- RQ1在没有显式AU监督的情况下,用于表情识别训练的深度CNN是否学会了检测面部动作单元(FAUs)?
- RQ2CNN中最具判别力的滤波器响应哪些面部区域,这些区域是否与已知的FAUs相对应?
- RQ3CNN滤波器所学习的空间模式能否与CK+数据集中标注的实际受试者面部运动有意义地关联?
- RQ4无偏置CNN架构是否在标准表情识别基准上实现了最先进性能?
主要发现
- 在CNN滤波器中可视化出的空间模式强烈类似于已知的面部动作单元(FAUs),例如AU 12(嘴角上提)和AU 25/27(嘴唇分开,嘴部拉伸)。
- 对于大多数滤波器,其激活分布KL散度最高的FAU,正是其感受野所对应的面部区域,证实了功能上的对齐。
- 滤波器2、6和9对AU 12表现出强烈敏感性,与它们检测微笑和嘴角上提的作用一致。
- 滤波器8对AU 25和AU 27有强烈响应,对应于惊讶表情的“O”形嘴部,证实了视觉与激活一致性。
- 所提出的无偏置CNN在扩展的Cohn-Kanade(CK+)和多伦多人脸数据集(TFD)基准上均达到了最先进性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。