QUICK REVIEW

[论文解读] MVT: Mask Vision Transformer for Facial Expression Recognition in the wild

Hanting Li, Mingzhe Sui|arXiv (Cornell University)|Jun 8, 2021

Emotion and Mood Recognition被引用 48

一句话总结

本文提出了一种纯基于变换器的掩码视觉Transformer (MVT) 用于野外场景的人脸表情识别，特征包括掩码生成网络（MGN）和动态重新标注模块，在 RAF-DB、FERPlus 和 AffectNet-7 上取得了最新的结果（在 AffectNet-8 上的结果也具有可比性）.

ABSTRACT

Facial Expression Recognition (FER) in the wild is an extremely challenging task in computer vision due to variant backgrounds, low-quality facial images, and the subjectiveness of annotators. These uncertainties make it difficult for neural networks to learn robust features on limited-scale datasets. Moreover, the networks can be easily distributed by the above factors and perform incorrect decisions. Recently, vision transformer (ViT) and data-efficient image transformers (DeiT) present their significant performance in traditional classification tasks. The self-attention mechanism makes transformers obtain a global receptive field in the first layer which dramatically enhances the feature extraction capability. In this work, we first propose a novel pure transformer-based mask vision transformer (MVT) for FER in the wild, which consists of two modules: a transformer-based mask generation network (MGN) to generate a mask that can filter out complex backgrounds and occlusion of face images, and a dynamic relabeling module to rectify incorrect labels in FER datasets in the wild. Extensive experimental results demonstrate that our MVT outperforms state-of-the-art methods on RAF-DB with 88.62%, FERPlus with 89.22%, and AffectNet-7 with 64.57%, respectively, and achieves a comparable result on AffectNet-8 with 61.40%.

研究动机与目标

解决在背景复杂、遮挡和标注不确定性下的野外场景人脸表情识别。
提出一个纯基于变换器的 FER 框架（MVT），使用掩码来过滤背景噪声。
引入一种动态重新标注策略，在训练过程中纠正标注错误的样本。
利用预训练的视觉Transformer，在多样的野外数据集上实现稳健的 FER 表现。

提出的方法

基于变换器的掩码生成网络（MGN）被引入，用于产生每张图像的掩码以抑制背景和遮挡。
将掩码图像输入到 Vision Transformer（ViT/DeiT-S 主干网络）进行表情分类，使用一个类标记（class token）。
使用类似 GAN 的设置训练 MGN，采用变换器判别器和一种新颖的生成器损失，借助预测表情的方差和目标掩码面积来鼓励选择性掩蔽。
应用一个动态重新标注模块，使用阈值 f(P_gt) + δ 来决定是否重新标注标签，其中阈值随给定标签概率 P_gt 增加而提高。
在带掩码的输入上微调分类器（DeiT-S），在 FER 训练过程中保持 MGN 冻结。

实验结果

研究问题

RQ1在结合学习到的掩码后，纯粹的变换器架构是否能有效处理野外 FER？
RQ2动态重新标注策略是否会提高野外 FER 数据集的训练稳定性和准确性？
RQ3掩码对背景、遮挡和姿态变化鲁棒性的影响在 RAF-DB、FERPlus 和 AffectNet 上表现为何？

主要发现

MVT 在 RAF-DB 上达到 88.62%，在 FERPlus 上达到 89.22%，在 AffectNet-7 上达到 64.57%，在 AffectNet-8 上达到 61.40%。
掩码生成网络（MGN）有效地过滤背景和遮挡，相比基线提高了准确性。
动态重新标注优于固定阈值重新标注，并在多个数据集上稳定了训练。
该方法在 RAF-DB、FERPlus、AffectNet-7 上达到最先进的结果，在 AffectNet-8 上也具有竞争力。
消融实验显示掩码比例和动态重新标注函数的选择会影响性能，并存在数据集特定的最优设置（例如：RAF-DB 的 m=15%，FERPlus 的 m=20%）。
该方法对遮挡和姿态变体具有鲁棒性，优于 Occlusion-RAF-DB 的基线，在 Pose-RAF-DB 上也取得了有竞争力的结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。