QUICK REVIEW

[论文解读] FaceNet2ExpNet: Regularizing a Deep Face Recognition Net for Expression Recognition

Hui Ding, S. Kevin Zhou|arXiv (Cornell University)|Sep 21, 2016

Speech and Audio Processing参考文献 38被引用 38

一句话总结

该论文提出了一种两阶段训练方法 FaceNet2ExpNet，通过使用预训练的人脸识别模型（FaceNet）的深度特征来正则化表情识别网络。通过提出一种新型分布函数来建模高层神经元响应，并应用特征级正则化，该方法提升了面部表情的语义表征能力。在四个公开数据集上实现了最先进性能，相比之前方法最高提升达 2.4 个百分点。

ABSTRACT

Relatively small data sets available for expression recognition research make the training of deep networks for expression recognition very challenging. Although fine-tuning can partially alleviate the issue, the performance is still below acceptable levels as the deep features probably contain redun- dant information from the pre-trained domain. In this paper, we present FaceNet2ExpNet, a novel idea to train an expression recognition network based on static images. We first propose a new distribution function to model the high-level neurons of the expression network. Based on this, a two-stage training algorithm is carefully designed. In the pre-training stage, we train the convolutional layers of the expression net, regularized by the face net; In the refining stage, we append fully- connected layers to the pre-trained convolutional layers and train the whole network jointly. Visualization shows that the model trained with our method captures improved high-level expression semantics. Evaluations on four public expression databases, CK+, Oulu-CASIA, TFD, and SFEW demonstrate that our method achieves better results than state-of-the-art.

研究动机与目标

为解决面部表情识别中训练数据有限的问题，该问题会限制深度神经网络的性能。
克服微调预训练人脸识别网络的局限性，如过拟合和个体特定特征占主导的问题。
通过利用人脸识别网络中的领域知识来改进表情特征表征，而无需依赖知识蒸馏或复杂架构。
开发一种两阶段训练框架，结合特征级正则化与基于标签的监督，以实现更优的判别性学习。

提出的方法

提出一种新的概率分布函数，用于基于微调的人脸识别网络（FaceNet）的特征，建模表情网络中的高层神经元响应。
在第一阶段训练中，仅训练表情网络的卷积层，使用回归损失使它们的激活响应匹配微调后的 FaceNet 的激活。
正则化作用于较深层的中间层（例如 VGG-16 中的 pool5），该层神经元具有低熵和丰富的语义内容。
在第二阶段，添加随机初始化的全连接层，并使用表情标签对整个网络进行联合训练，以增强判别能力。
该方法避免使用知识蒸馏，不依赖教师网络的 Softmax 输出，而是使用中间特征图进行正则化。
模型架构保持轻量化（1100 万个参数），以保证效率，单张 Titan X GPU 上每张图像的推理时间仅为 3ms。

实验结果

研究问题

RQ1当训练数据有限时，能否利用预训练人脸识别网络的知识来改善表情特征学习？
RQ2使用人脸网络中间激活的特征级正则化，是否能比标准微调方法带来更好的表情表征？
RQ3两阶段训练策略（先正则化卷积层，再联合使用标签训练）是否优于端到端微调？
RQ4该方法在数据规模和图像质量各异的约束性与非约束性表情数据集上的表现如何？

主要发现

在 CK+ 数据集上，FaceNet2ExpNet 达到 99.1% 的准确率，显著优于之前最先进方法的 98.4%。
在 Oulu-CASIA 数据集上，准确率达到 97.8%，超过之前最先进方法的 96.5%。
在 TFD 数据集上，平均准确率达到 88.9%，比之前最佳方法高出 2.1 个百分点。
在非约束性 SFEW 数据集上，不使用外部数据时达到 48.19% 的准确率，使用 FER2013 数据后提升至 55.15%，在后一设置下超过亚军近 3 个百分点。
可视化结果表明，模型学习到了表情特异性模式，如愤怒时的皱眉和惊讶时的睁大双眼，同时有效减少了以人脸为中心的偏差。
该方法计算效率高，单张图像在单张 GPU 上的推理时间仅为 3ms，模型参数量仅为 1100 万个。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。