Skip to main content
QUICK REVIEW

[論文レビュー] Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification

Armando Zhu, Keqin Li|arXiv (Cornell University)|Apr 22, 2024
Industrial Vision Systems and Defect Detection被引用数 13
ひとこと要約

同時に FER の表情認識と mask 着用分類を行う統一型の二分岐 Vision Transformer で、情報を cross-attention で交換するクロス・タスク融合フェーズを備える。

ABSTRACT

With wearing masks becoming a new cultural norm, facial expression recognition (FER) while taking masks into account has become a significant challenge. In this paper, we propose a unified multi-branch vision transformer for facial expression recognition and mask wearing classification tasks. Our approach extracts shared features for both tasks using a dual-branch architecture that obtains multi-scale feature representations. Furthermore, we propose a cross-task fusion phase that processes tokens for each task with separate branches, while exchanging information using a cross attention module. Our proposed framework reduces the overall complexity compared with using separate networks for both tasks by the simple yet effective cross-task fusion phase. Extensive experiments demonstrate that our proposed model performs better than or on par with different state-of-the-art methods on both facial expression recognition and facial mask wearing classification task.

研究の動機と目的

  • マスク着用条件下での FER を単一の統一問題として扱う。
  • 多スケール表現を持つ二分岐アーキテクチャによって共有特徴とタスク特有特徴を活用する。
  • クロス・タスク融合フェーズを導入することにより、別々のネットワークと比較してモデルの複雑さを低減する。

提案手法

  • FER とマスク着用のための共有された多スケール特徴を抽出するために、二分岐 Vision Transformer を用いる。
  • 情報交換を可能にしつつ、各タスクのトークンを別々のブランチで処理する。
  • タスク間情報共有のためのクロスアテンションモジュールを用いたクロス・タスク融合フェーズを導入する。
  • 性能を維持しつつ、別々のネットワークと比較して全体的な複雑さを削減することを目指す。

実験結果

リサーチクエスチョン

  • RQ1マスクが存在する場合に統一された多分岐アーキテクチャは、タスク固有モデルと比較してFERを改善できるか?
  • RQ2クロスアテンションによるクロス・タスク融合は、FERおよびマスク着用分類の両方の性能を向上させるか?
  • RQ3提案されたクロス・タスクアーキテクチャは、2つの別々のネットワークを使用するよりも効率的か?

主な発見

  • 提案モデルは、FERおよびマスク着用分類の性能を、最先端手法と比較して競争力の水準で達成する。
  • クロスアテンションを用いたクロス・タスク融合は情報交換を促進し、マスク着用条件下での認識を改善する。
  • このフレームワークは、各タスクごとに別々のネットワークを使用する場合と比べて全体の複雑さを低減する。
  • 実験により、モデルは両方のタスクでいくつかのベースライン手法と同等かそれ以上の性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。