QUICK REVIEW

[論文レビュー] Spatio-Temporal Transformer for Dynamic Facial Expression Recognition in the Wild

Fuyan Ma, Bin Sun|arXiv (Cornell University)|May 10, 2022

Emotion and Mood Recognition被引用数 27

ひとこと要約

本論文は、ジョイント空間と時間の注意機構とコンパクトなソフトマックス交差エントロピー損失を備えた時空間トランスフォーマー（STT）を提案し、実世界での動的表情認識を改善し、DFEWとAFEWデータセットで最先端の結果を達成する。

ABSTRACT

Previous methods for dynamic facial expression in the wild are mainly based on Convolutional Neural Networks (CNNs), whose local operations ignore the long-range dependencies in videos. To solve this problem, we propose the spatio-temporal Transformer (STT) to capture discriminative features within each frame and model contextual relationships among frames. Spatio-temporal dependencies are captured and integrated by our unified Transformer. Specifically, given an image sequence consisting of multiple frames as input, we utilize the CNN backbone to translate each frame into a visual feature sequence. Subsequently, the spatial attention and the temporal attention within each block are jointly applied for learning spatio-temporal representations at the sequence level. In addition, we propose the compact softmax cross entropy loss to further encourage the learned features have the minimum intra-class distance and the maximum inter-class distance. Experiments on two in-the-wild dynamic facial expression datasets (i.e., DFEW and AFEW) indicate that our method provides an effective way to make use of the spatial and temporal dependencies for dynamic facial expression recognition. The source code and the training logs will be made publicly available.

研究の動機と目的

野外（実世界）での動的表情認識を動機づけ、長距離依存性を見逃すCNNベース手法の限界に対処する。
識別性の高いフレームごとの特徴とフレーム間コンテキストを捉える時空間トランスフォーマーを開発する。
クラス内の距離を狭め、クラス間の距離を広げるコンパクトなソフトマックス交差エントロピー損失を導入する。
大規模な実世界のDFERデータセットで有効性を示し、学習済み領域と特徴分布の可視化を提供する。

提案手法

動画列からフレームレベルの特徴を抽出するためにCNNバックボーン（ResNet18）を使用する。
フレーム特徴をトークン列に変換し、空間・時間のマルチヘッド注意機構を共同で用いる時空間トランスフォーマーを適用する。
学習可能な空間的および時系列の位置埋め込みと、系列レベルの予測用の分類トークンを組み込む。
非ターゲット予測に対して対称KL発散を用いるコンパクトなソフトマックス交差エントロピー損失を適用し、クラス内の距離を狭め、クラス間の距離を広げる。
標準的なデータ前処理とクロスバリデーション手順を用いてDFEWとAFEWで訓練・評価を行う。

実験結果

リサーチクエスチョン

RQ1実世界のDFERにおいて、顔表情シーケンスの時空間依存性をTransformerでいかに効果的にモデル化できるか？
RQ2空間的注意と時間的注意を共同でモデリングすることで、ベースラインのシーケンスモデルより認識性能が向上するか？
RQ3クラス内の類似性を引き締め、クラス間の識別性を高める正則化損失関数は、性能をさらに向上させるか？
RQ4提案手法はDFEWおよびAFEWにおける最新手法とどのように比較されるか？

主な発見

空間的および時間的注意を結合した時空間トランスフォーマーは、ベースラインより認識性能を向上させる。
コンパクトなソフトマックス交差エントロピー損失は、クラス内距離を縮小し、クラス間距離を拡大することで識別性をさらに高める。
本手法は従来の時空間モデルと比較してDFEWおよびAFEWで最先端の結果を達成する。
Grad-CAMの可視化は、STTによって捉えられた識別的な顔領域と時系列の相関を示している。
t-SNEの可視化では、提案損失を用いるとクラス内クラスタリングがより凝縮され、クラス間分離がより明確になる。
アブレーション研究は、空間注意、時間注意、および提案損失の貢献が性能向上に寄与することを検証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。