[論文レビュー] Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification
同時に FER の表情認識と mask 着用分類を行う統一型の二分岐 Vision Transformer で、情報を cross-attention で交換するクロス・タスク融合フェーズを備える。
With wearing masks becoming a new cultural norm, facial expression recognition (FER) while taking masks into account has become a significant challenge. In this paper, we propose a unified multi-branch vision transformer for facial expression recognition and mask wearing classification tasks. Our approach extracts shared features for both tasks using a dual-branch architecture that obtains multi-scale feature representations. Furthermore, we propose a cross-task fusion phase that processes tokens for each task with separate branches, while exchanging information using a cross attention module. Our proposed framework reduces the overall complexity compared with using separate networks for both tasks by the simple yet effective cross-task fusion phase. Extensive experiments demonstrate that our proposed model performs better than or on par with different state-of-the-art methods on both facial expression recognition and facial mask wearing classification task.
研究の動機と目的
- マスク着用条件下での FER を単一の統一問題として扱う。
- 多スケール表現を持つ二分岐アーキテクチャによって共有特徴とタスク特有特徴を活用する。
- クロス・タスク融合フェーズを導入することにより、別々のネットワークと比較してモデルの複雑さを低減する。
提案手法
- FER とマスク着用のための共有された多スケール特徴を抽出するために、二分岐 Vision Transformer を用いる。
- 情報交換を可能にしつつ、各タスクのトークンを別々のブランチで処理する。
- タスク間情報共有のためのクロスアテンションモジュールを用いたクロス・タスク融合フェーズを導入する。
- 性能を維持しつつ、別々のネットワークと比較して全体的な複雑さを削減することを目指す。
実験結果
リサーチクエスチョン
- RQ1マスクが存在する場合に統一された多分岐アーキテクチャは、タスク固有モデルと比較してFERを改善できるか?
- RQ2クロスアテンションによるクロス・タスク融合は、FERおよびマスク着用分類の両方の性能を向上させるか?
- RQ3提案されたクロス・タスクアーキテクチャは、2つの別々のネットワークを使用するよりも効率的か?
主な発見
- 提案モデルは、FERおよびマスク着用分類の性能を、最先端手法と比較して競争力の水準で達成する。
- クロスアテンションを用いたクロス・タスク融合は情報交換を促進し、マスク着用条件下での認識を改善する。
- このフレームワークは、各タスクごとに別々のネットワークを使用する場合と比べて全体の複雑さを低減する。
- 実験により、モデルは両方のタスクでいくつかのベースライン手法と同等かそれ以上の性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。