QUICK REVIEW

[论文解读] Vision Transformer for Action Units Detection

Tu Vu, Van Thong Huynh|arXiv (Cornell University)|Mar 16, 2023

Emotion and Mood Recognition被引用 8

一句话总结

本论文提出一种基于 Vision Transformer 的方法（ViViT），采用 CNN RegNetY 骨干用于 ABAW 2023 的 AU 检测，在基线基础上显著提升，并与顶级方法竞争。

ABSTRACT

Facial Action Units detection (FAUs) represents a fine-grained classification problem that involves identifying different units on the human face, as defined by the Facial Action Coding System. In this paper, we present a simple yet efficient Vision Transformer-based approach for addressing the task of Action Units (AU) detection in the context of Affective Behavior Analysis in-the-wild (ABAW) competition. We employ the Video Vision Transformer(ViViT) Network to capture the temporal facial change in the video. Besides, to reduce massive size of the Vision Transformers model, we replace the ViViT feature extraction layers with the CNN backbone (Regnet). Our model outperform the baseline model of ABAW 2023 challenge, with a notable 14% difference in result. Furthermore, the achieved results are comparable to those of the top three teams in the previous ABAW 2022 challenge.

研究动机与目标

在 ABAW 挑战中推动野外条件下的面部动作单元（AU）检测变得鲁棒。
提出一种轻量级的基于 ViViT 的架构，利用 CNN 特征来控制模型大小。
展示对 ABAW 2023 基线的改进并与 ABAW 2022 的顶尖团队进行比较。

提出的方法

将 RegNetY 作为预训练的 CNN 骨干，并对最后三个模块进行部分微调以提取视频嵌入。
使用带因子化编码器的 Video Vision Transformer (ViViT) 来处理视频帧的时空令牌。
应用 Tubelet Embedding 将视频嵌入转换为 Transformer 令牌，并经由 MSA、层归一化和带残差连接的 MLP 块进行处理。
使用 SGD 与余弦退火暖启动以及 focal loss 来处理 12 个 AU 的类别不平衡。
通过仅保留最后 8 个 Transformer 层来限制 ViViT 的深度以降低计算负担。
使用在 12 个 AU 上求取的宏观 F1 分数作为主要评估指标进行评估。

Figure 1 : An overview of the action unit detection model.

实验结果

研究问题

RQ1一个 CNN 支撑的 ViViT 架构是否能够在野外竞赛场景中有效检测面部动作单元？
RQ2用 CNN 骨干替换完整的 ViViT 特征提取层是否能在不牺牲 AU 检测准确率的前提下降低模型大小？
RQ3所提出的方法与 ABAW 基线及前几年（ABAW 2022）顶尖团队在宏观 F1 分数上的表现相比如何？
RQ4使用 ViViT 变体（因子化编码器）和减少的 Transformer 深度对性能和速度有何影响？

主要发现

所提出的方法在宏观 F1 分数上显著超越 ABAW 2023 基线约 14%。
该方法在与 ABAW 2022 顶尖团队的结果上具有竞争力。
采用 RegNetY 作为 CNN 骨干并进行部分微调可在降低模型大小的同时保持性能。
使用有限的 Transformer 层（最后 8 层）且采用 focal loss 的 ViViT 分类器在交叉验证中实现稳定的表现。
在所报告的表格中宏观 F1 得分显示在多折与验证集上对 AU 检测具有较强的性能表现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。