Skip to main content
QUICK REVIEW

[論文レビュー] TAG: Thinking with Action Unit Grounding for Facial Expression Recognition

Haobo Lin, Tianyi Bai|arXiv (Cornell University)|Feb 21, 2026
Emotion and Mood Recognition被引用数 0
ひとこと要約

TAG は多模態推論を顔表情ユニット(AU)に grounded することで FER の信頼性を高め、AU-grounded supervision と AU-aware reinforcement learning により強力な VLM ベースラインよりも精度と視覚的忠実さを向上させます。

ABSTRACT

Facial Expression Recognition (FER) is a fine-grained visual understanding task where reliable predictions require reasoning over localized and meaningful facial cues. Recent vision--language models (VLMs) enable natural language explanations for FER, but their reasoning is often ungrounded, producing fluent yet unverifiable rationales that are weakly tied to visual evidence and prone to hallucination, leading to poor robustness across different datasets. We propose TAG (Thinking with Action Unit Grounding), a vision--language framework that explicitly constrains multimodal reasoning to be supported by facial Action Units (AUs). TAG requires intermediate reasoning steps to be grounded in AU-related facial regions, yielding predictions accompanied by verifiable visual evidence. The model is trained via supervised fine-tuning on AU-grounded reasoning traces followed by reinforcement learning with an AU-aware reward that aligns predicted regions with external AU detectors. Evaluated on RAF-DB, FERPlus, and AffectNet, TAG consistently outperforms strong open-source and closed-source VLM baselines while simultaneously improving visual faithfulness. Ablation and preference studies further show that AU-grounded rewards stabilize reasoning and mitigate hallucination, demonstrating the importance of structured grounded intermediate representations for trustworthy multimodal reasoning in FER. The code will be available at https://github.com/would1920/FER_TAG .

研究の動機と目的

  • 視覚と言語モデルの未 grounded な多模態説明に対処して、信頼できる FER を動機づける。
  • 中間推論を AU に grounding して検証可能な視覚的証拠を提供する枠組みを提案する。
  • 標準的な FER ベンチマーク上で AU-grounded 推論データセット TAG-310k を作成する。
  • 二段階訓練(AU-grounded supervised fine-tuning と AU-aware reinforcement learning)で推論を生理学的手掛かりに合わせる。
  • 複数の FER ベンチマークとアブレーションを通じて精度と視覚的忠実さの向上を示す。

提案手法

  • AU-grounded トレーニングを用いた二段階学習:AU-grounded トレースでの監視付きファインチューニング(SFT)と AU-aware 報酬を用いた強化学習(GRPO)。
  • AU-grounded 思考:<think>/<bbox>/<answer> の構造化トレースで、境界ボックスは AU 関連の顔領域を参照。
  • AU-IoU 報酬:外部 AU デテクターと IoU で予測 AU grounding ボックスを整合させ、トップ-k 平均で報酬のハッキングを抑制。
  • フォーマットと報酬:推論出力の適切さと FER ラベルの正確さを促進して学習の安定化。
  • TAG-310k:AffectNet、FERPlus、RAF-DB から AU 検出と品質フィルタリングを行った大規模 AU-grounded 推論データセット。
  • データセットごとの RL:個別の FER ベンチマークで最先端スコアを達成するためのデータセット特有のファインチューニング。

実験結果

リサーチクエスチョン

  • RQ1AU-grounded 中間推論を強制することで、未 grounding の VLM と比較して FER の性能と視覚的忠実さを改善できるか?
  • RQ2AU-aware の強化学習を取り入れると推論の安定化とデータセット間の幻覚抑制につながるか?
  • RQ3AU-grounded トレースと報酬は FER ベンチマークとデテクタ間で一般化するか。
  • RQ4 grounding 内容(境界ボックス)の SFT と RL の性能に与える影響は?
  • RQ5AU-grounded 学習を取り入れた統一モデルはデータセットごとの調整モデルと競争力があるか?

主な発見

ModelRAF-DB AccFERPlus AccAffectNet AccAverage
Baseline (w/o grounding)56.7566.3633.8956.54
SFT w/o <bbox>86.9978.9948.09-
SFT (full)89.0281.0150.0074.34
TAG-7B (SFT only)89.0281.0150.0074.34
TAG-7B (ours, RL)†92.8091.5067.0383.78
LLaVA-Next-Llama3-8B59.0973.3637.1756.54
Qwen2.5-VL-7B56.7566.3633.8952.33
InternVL3.5-8B73.4769.4138.5760.48
LLaVA-Next-34B78.3669.3842.8363.52
InternVL3-38B79.9568.7546.6365.11
Gemini-2.5-Pro65.5156.3348.4956.78
Gemini-2.5-Flash68.8470.0650.1463.01
GPT-574.0567.8446.9162.93
SCN†87.0388.01
EAC†89.9989.6465.3281.65
APViT†91.9890.8666.9183.25
POSTER†92.0591.6267.3183.66
ExpLLM†91.0390.5065.9382.49
UniFER88.7276.4948.5071.24
  • TAG は RAF-DB、FERPlus、AffectNet の平均精度で最先端を達成(統一 SFT で 74.34%)、強力なオープンソース VLM および FER 専用ベースラインを上回る。
  • データセットごとの RL を用いると、TAG は RAF-DB で 92.80%、FERPlus で 91.50%、AffectNet で 67.03%(平均 83.78%)を達成。
  • AU-grounded の監視付きファインチューニング(SFT)は精度と AU grounding(IoU 46.73)を大幅に改善。
  • RL を AU-grounded 報酬なしで追加すると grounding が低下(IoU が 43.46 へ)、AU-grounded 報酬は精度と IoU の両方を改善(60.24)。
  • AU-IoU 報酬は AU-label のみよりも OpenFace 評価下でより良く一般化(IoU:RAF-DB で 61.78 対 56.46、FERPlus で 53.27 対 50.84)。
  • データセット横断 RL はドメイン内外の性能を向上させ、AU-grounded ポリシーの移転性を示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。