Skip to main content
QUICK REVIEW

[論文レビュー] Vision Transformer for Action Units Detection

Tu Vu, Van Thong Huynh|arXiv (Cornell University)|Mar 16, 2023
Emotion and Mood Recognition被引用数 8
ひとこと要約

この論文は ABAW 2023 で AU 検出のための Vision Transformer ベースのアプローチ(ViViT)と CNN RegNetY バックボーンを用い、ベースラインを大幅に上回り、トップの先行研究と競合する結果を示す。

ABSTRACT

Facial Action Units detection (FAUs) represents a fine-grained classification problem that involves identifying different units on the human face, as defined by the Facial Action Coding System. In this paper, we present a simple yet efficient Vision Transformer-based approach for addressing the task of Action Units (AU) detection in the context of Affective Behavior Analysis in-the-wild (ABAW) competition. We employ the Video Vision Transformer(ViViT) Network to capture the temporal facial change in the video. Besides, to reduce massive size of the Vision Transformers model, we replace the ViViT feature extraction layers with the CNN backbone (Regnet). Our model outperform the baseline model of ABAW 2023 challenge, with a notable 14% difference in result. Furthermore, the achieved results are comparable to those of the top three teams in the previous ABAW 2022 challenge.

研究の動機と目的

  • 野外データを含む ABAW チャレンジ内での堅牢な Facial Action Units (AU) 検出の動機付け。
  • モデルサイズを管理するための CNN 特徴を用いた軽量な ViViT ベースのアーキテクチャを提案。
  • ABAW 2023 のベースラインを改善し、ABAW 2022 のトップチームと比較を行うこと。

提案手法

  • RegNetY を事前学習済み CNN バックボーンとして採用し、ビデオ埋め込みを抽出するために最後の3ブロックを部分的に微調整。
  • 動画フレームからの時空トークンを処理するため に、分解型エンコーダ版を用いた ViViT(Video Vision Transformer)を使用。
  • Tubelet Embedding を適用して動画埋め込みを Transformer トークンに変換し、残差接続を持つ MSA、LayerNorm、MLP ブロックを通して処理。
  • 12個の AU に対するクラス不均衡を扱うため、SGD とコサイン減衰のウェアーム再開、および focal loss で学習。
  • 計算負担を減らすため、ViViT の深さを最後の8レイヤーのみとする。
  • 評価は 12 AU のマクロ F1 スコアを主要指標として実施。
Figure 1 : An overview of the action unit detection model.
Figure 1 : An overview of the action unit detection model.

実験結果

リサーチクエスチョン

  • RQ1CNN バックボーンを持つ ViViT アーキテクチャは、野外競技設定で Facial Action Units を効果的に検出できるか?
  • RQ2ViViT の全特徴抽出レイヤを CNN バックボーンに置換して、AU 検出精度を犠牲にせずモデルサイズを削減できるか?
  • RQ3提案手法は ABAW ベースラインおよび過去年(ABAW 2022)のトップチームと macro F1 スコアでどう比較されるか?
  • RQ4ViViT 変種(Factorized encoder)と Transformer 深さの削減が性能と速度に与える影響は?

主な発見

MethodVal SetTest Set
Baseline0.39_
Top 10.5250.499
Top 20.7310.498
Top 30.5440.490
Our methods0.5398_
Fold 10.5211
Fold 20.5319
Fold 30.5277
Fold 40.5332
Fold 50.526
Val Set0.5398
  • 提案手法は ABAW 2023 ベースラインを macro F1 スコアで約14%上回る。
  • ABAW 2022 のトップチームと競合する結果を達成。
  • CNN バックボーンとして RegNetY を部分的に微調整して使用することで、モデルサイズを削減しつつ性能を維持。
  • 制限された Transformer レイヤ(最終8層)と focal loss を用いた ViViT ベースの分類器により、検証のフォールド間で安定した性能を達成。
  • 報告された表のマクロ F1 スコアは、複数のフォールドおよび検証スプリットで強い AU 検出性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。