Skip to main content
QUICK REVIEW

[论文解读] Peak-Piloted Deep Network for Facial Expression Recognition

Xiangyun Zhao, Xiaodan Liang|arXiv (Cornell University)|Jul 24, 2016
Emotion and Mood Recognition参考文献 31被引用 24
一句话总结

该论文提出了一种峰值引导的深度网络(PPDN),用于面部表情识别,通过利用峰值表情样本的特征响应来监督非峰值表情特征,将表情强度不变性嵌入网络。采用一种新颖的峰值梯度抑制(PGS)反向传播方法,PPDN在Oulu-CASIA和CK+数据集上提升了识别准确率,优于当前最先进方法,并在Multi-PIE上的姿态不变性人脸识别任务中表现出良好的泛化能力。

ABSTRACT

Objective functions for training of deep networks for face-related recognition tasks, such as facial expression recognition (FER), usually consider each sample independently. In this work, we present a novel peak-piloted deep network (PPDN) that uses a sample with peak expression (easy sample) to supervise the intermediate feature responses for a sample of non-peak expression (hard sample) of the same type and from the same subject. The expression evolving process from non-peak expression to peak expression can thus be implicitly embedded in the network to achieve the invariance to expression intensities. A special purpose back-propagation procedure, peak gradient suppression (PGS), is proposed for network training. It drives the intermediate-layer feature responses of non-peak expression samples towards those of the corresponding peak expression samples, while avoiding the inverse. This avoids degrading the recognition capability for samples of peak expression due to interference from their non-peak expression counterparts. Extensive comparisons on two popular FER datasets, Oulu-CASIA and CK+, demonstrate the superiority of the PPDN over state-ofthe-art FER methods, as well as the advantages of both the network structure and the optimization strategy. Moreover, it is shown that PPDN is a general architecture, extensible to other tasks by proper definition of peak and non-peak samples. This is validated by experiments that show state-of-the-art performance on pose-invariant face recognition, using the Multi-PIE dataset.

研究动机与目标

  • 解决识别细微、低强度面部表情的挑战,这些表情在视觉上相似且难以区分。
  • 通过建模从非峰值到峰值表情的自然演化过程,提升模型对表情强度变化的鲁棒性。
  • 开发一种训练策略,避免因非峰值样本的监督而导致峰值表情识别性能下降。
  • 通过重新定义峰值和非峰值样本,将该框架推广至其他识别任务。

提出的方法

  • PPDN使用同一主体和同一表情类型的成对样本:一个峰值(易样本)和一个非峰值(难样本)表情。
  • 通过最小化非峰值和峰值表情样本在中间层特征图之间的L2范数差异,嵌入表情演化过程。
  • 提出一种新颖的反向传播过程——峰值梯度抑制(PGS),通过在非峰值特征优化过程中抑制峰值样本的梯度来更新网络权重。
  • PGS梯度被定义为特征差异损失完整梯度的相反数,确保下降方向的同时避免峰值样本梯度的干扰。
  • 该方法联合优化两个目标:峰值引导的特征变换(L2损失)和表情识别(交叉熵损失)。
  • 该架构具有可扩展性:通过重新定义峰值和非峰值样本(例如,正面脸与侧脸),可扩展至姿态不变性人脸识别。

实验结果

研究问题

  • RQ1建模从非峰值到峰值表情的演化过程是否能提升对细微、低强度面部表情的识别能力?
  • RQ2使用峰值表情特征来监督非峰值特征,是否能在不降低峰值表情识别性能的前提下增强对表情强度的不变性?
  • RQ3所提出的峰值梯度抑制(PGS)方法是否能有效引导训练,同时避免峰值样本梯度的负面干扰?
  • RQ4PPDN框架在多大程度上可推广至面部表情识别之外的其他识别任务?

主要发现

  • 在Oulu-CASIA和CK+数据集上,PPDN在面部表情识别任务中达到最先进性能,优于现有最先进方法。
  • 在Multi-PIE数据集的姿态不变性人脸识别任务中,PPDN在'设置1'下对困难姿态(−45°和45°)的识别准确率达到97.98%,高于GoogLeNet基线的95.99%。
  • 在Multi-PIE的'设置2'下,PPDN的平均准确率达到83.22%,超过GoogLeNet基线(74.84%)和所有四个最先进基线2.52个百分点。
  • PGS方法确保了损失函数的下降方向,分析结果支持其稳定且有效的训练过程。
  • 该框架具有良好的泛化能力:通过将正面脸视为峰值样本、侧脸视为非峰值样本,PPDN学习到隐式的特征变换,提升了对姿态变化的鲁棒性。
  • 实证结果证实,联合优化特征变换损失和识别损失可显著提升对弱表达的判别能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。