[论文解读] MVT: Mask Vision Transformer for Facial Expression Recognition in the wild
本文提出了一种纯基于变换器的掩码视觉Transformer (MVT) 用于野外场景的人脸表情识别,特征包括掩码生成网络(MGN)和动态重新标注模块,在 RAF-DB、FERPlus 和 AffectNet-7 上取得了最新的结果(在 AffectNet-8 上的结果也具有可比性).
Facial Expression Recognition (FER) in the wild is an extremely challenging task in computer vision due to variant backgrounds, low-quality facial images, and the subjectiveness of annotators. These uncertainties make it difficult for neural networks to learn robust features on limited-scale datasets. Moreover, the networks can be easily distributed by the above factors and perform incorrect decisions. Recently, vision transformer (ViT) and data-efficient image transformers (DeiT) present their significant performance in traditional classification tasks. The self-attention mechanism makes transformers obtain a global receptive field in the first layer which dramatically enhances the feature extraction capability. In this work, we first propose a novel pure transformer-based mask vision transformer (MVT) for FER in the wild, which consists of two modules: a transformer-based mask generation network (MGN) to generate a mask that can filter out complex backgrounds and occlusion of face images, and a dynamic relabeling module to rectify incorrect labels in FER datasets in the wild. Extensive experimental results demonstrate that our MVT outperforms state-of-the-art methods on RAF-DB with 88.62%, FERPlus with 89.22%, and AffectNet-7 with 64.57%, respectively, and achieves a comparable result on AffectNet-8 with 61.40%.
研究动机与目标
- 解决在背景复杂、遮挡和标注不确定性下的野外场景人脸表情识别。
- 提出一个纯基于变换器的 FER 框架(MVT),使用掩码来过滤背景噪声。
- 引入一种动态重新标注策略,在训练过程中纠正标注错误的样本。
- 利用预训练的视觉Transformer,在多样的野外数据集上实现稳健的 FER 表现。
提出的方法
- 基于变换器的掩码生成网络(MGN)被引入,用于产生每张图像的掩码以抑制背景和遮挡。
- 将掩码图像输入到 Vision Transformer(ViT/DeiT-S 主干网络)进行表情分类,使用一个类标记(class token)。
- 使用类似 GAN 的设置训练 MGN,采用变换器判别器和一种新颖的生成器损失,借助预测表情的方差和目标掩码面积来鼓励选择性掩蔽。
- 应用一个动态重新标注模块,使用阈值 f(P_gt) + δ 来决定是否重新标注标签,其中阈值随给定标签概率 P_gt 增加而提高。
- 在带掩码的输入上微调分类器(DeiT-S),在 FER 训练过程中保持 MGN 冻结。
实验结果
研究问题
- RQ1在结合学习到的掩码后,纯粹的变换器架构是否能有效处理野外 FER?
- RQ2动态重新标注策略是否会提高野外 FER 数据集的训练稳定性和准确性?
- RQ3掩码对背景、遮挡和姿态变化鲁棒性的影响在 RAF-DB、FERPlus 和 AffectNet 上表现为何?
主要发现
- MVT 在 RAF-DB 上达到 88.62%,在 FERPlus 上达到 89.22%,在 AffectNet-7 上达到 64.57%,在 AffectNet-8 上达到 61.40%。
- 掩码生成网络(MGN)有效地过滤背景和遮挡,相比基线提高了准确性。
- 动态重新标注优于固定阈值重新标注,并在多个数据集上稳定了训练。
- 该方法在 RAF-DB、FERPlus、AffectNet-7 上达到最先进的结果,在 AffectNet-8 上也具有竞争力。
- 消融实验显示掩码比例和动态重新标注函数的选择会影响性能,并存在数据集特定的最优设置(例如:RAF-DB 的 m=15%,FERPlus 的 m=20%)。
- 该方法对遮挡和姿态变体具有鲁棒性,优于 Occlusion-RAF-DB 的基线,在 Pose-RAF-DB 上也取得了有竞争力的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。