Skip to main content
QUICK REVIEW

[论文解读] Spatio-Temporal Transformer for Dynamic Facial Expression Recognition in the Wild

Fuyan Ma, Bin Sun|arXiv (Cornell University)|May 10, 2022
Emotion and Mood Recognition被引用 27
一句话总结

该论文提出了一种时空 Transformer (STT),具有联合时空注意力和紧凑的 Softmax 交叉熵损失,以提升野外动态面部表情识别,在 DFEW 和 AFEW 数据集上达到最新的结果。

ABSTRACT

Previous methods for dynamic facial expression in the wild are mainly based on Convolutional Neural Networks (CNNs), whose local operations ignore the long-range dependencies in videos. To solve this problem, we propose the spatio-temporal Transformer (STT) to capture discriminative features within each frame and model contextual relationships among frames. Spatio-temporal dependencies are captured and integrated by our unified Transformer. Specifically, given an image sequence consisting of multiple frames as input, we utilize the CNN backbone to translate each frame into a visual feature sequence. Subsequently, the spatial attention and the temporal attention within each block are jointly applied for learning spatio-temporal representations at the sequence level. In addition, we propose the compact softmax cross entropy loss to further encourage the learned features have the minimum intra-class distance and the maximum inter-class distance. Experiments on two in-the-wild dynamic facial expression datasets (i.e., DFEW and AFEW) indicate that our method provides an effective way to make use of the spatial and temporal dependencies for dynamic facial expression recognition. The source code and the training logs will be made publicly available.

研究动机与目标

  • 在野外推进动态面部表情识别,并解决基于 CNN 的方法难以捕捉长程依赖的局限性。
  • 开发一个时空 Transformer,以捕捉判别性逐帧特征和帧间上下文。
  • 引入紧凑的 Softmax 交叉熵损失,以收紧类内距离并增大类间距离。
  • 在大规模野外 DFER 数据集上展示有效性,并提供学习到的区域和特征分布的可视化。

提出的方法

  • 使用 CNN 主干 (ResNet18) 从视频序列中提取逐帧特征。
  • 将帧特征转换为标记序列,并采用具有联合多头时空注意力的时空 Transformer。
  • 结合可学习的时空位置嵌入和用于序列级预测的分类标记。
  • 应用使用非目标预测的对称 KL 散度的紧凑 Softmax 交叉熵损失,以收紧类内距离并增大类间距离。
  • 在 DFEW 和 AFEW 上使用标准数据预处理和交叉验证协议进行训练与评估。

实验结果

研究问题

  • RQ1如何用 Transformer 有效建模野外 DFER 的面部表情序列中的时空相关性?
  • RQ2联合建模时空注意力是否比基线序列模型提高识别性能?
  • RQ3一种正则化损失函数,收紧类内相似性并增强类间可分离性,是否能进一步提升性能?
  • RQ4所提出的方法在 DFEW 和 AFEW 上与最先进的方法相比如何?

主要发现

  • 具备联合时空注意力的时空 Transformer 相较基线提升了识别性能。
  • 紧凑的 Softmax 交叉熵损失通过降低类内距离和增加类间距离进一步提升可辨别性。
  • 与以往的时空模型相比,该方法在 DFEW 和 AFEW 上达到了最先进的结果。
  • Grad-CAM 可视化显示了 STT 捕捉到的判别性面部区域和时序相关性。
  • t-SNE 可视化表明在使用所提损失时,类内聚类更紧凑,类间分离更清晰。
  • 消融研究验证了空间注意力、时间注意力以及所提损失对性能提升的贡献。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。