QUICK REVIEW

[논문 리뷰] TAG: Thinking with Action Unit Grounding for Facial Expression Recognition

Haobo Lin, Tianyi Bai|arXiv (Cornell University)|2026. 02. 21.

Emotion and Mood Recognition인용 수 0

한 줄 요약

TAG는 FER의 다중모달 추론을 얼굴 행동 단위(AU)에 기반하도록 제약하여 AU-기반 감독 학습과 AU-aware 강화 학습을 통해 강력한 VLM 기준선보다 정확도와 시각적 신뢰성을 향상시킵니다.

ABSTRACT

Facial Expression Recognition (FER) is a fine-grained visual understanding task where reliable predictions require reasoning over localized and meaningful facial cues. Recent vision--language models (VLMs) enable natural language explanations for FER, but their reasoning is often ungrounded, producing fluent yet unverifiable rationales that are weakly tied to visual evidence and prone to hallucination, leading to poor robustness across different datasets. We propose TAG (Thinking with Action Unit Grounding), a vision--language framework that explicitly constrains multimodal reasoning to be supported by facial Action Units (AUs). TAG requires intermediate reasoning steps to be grounded in AU-related facial regions, yielding predictions accompanied by verifiable visual evidence. The model is trained via supervised fine-tuning on AU-grounded reasoning traces followed by reinforcement learning with an AU-aware reward that aligns predicted regions with external AU detectors. Evaluated on RAF-DB, FERPlus, and AffectNet, TAG consistently outperforms strong open-source and closed-source VLM baselines while simultaneously improving visual faithfulness. Ablation and preference studies further show that AU-grounded rewards stabilize reasoning and mitigate hallucination, demonstrating the importance of structured grounded intermediate representations for trustworthy multimodal reasoning in FER. The code will be available at https://github.com/would1920/FER_TAG .

연구 동기 및 목표

비전-언어 모델의 ungrounded 다중모달 설명으로 인한 신뢰할 수 없는 추론 문제를 다루어 FER의 신뢰성을 높인다.
중간 추론을 AU로 근거화하여 검증 가능한 시각적 증거를 제공하는 프레임워크를 제안한다.
AU-기반 추론(dataset 기반의 AU 탐지 및 품질 필터링 포함)으로 구축된 대규모 AU-근거 추론 데이터셋 TAG-310k를 만든다.
추론을 생리 신호에 맞추기 위해 두 단계( AU-기반 감독 미세조정 및 AU-인식 강화 학습)로 학습하여 추론과 생리학적 신호를 정렬한다.
다수의 FER 벤치마크 및 절차(ablation)에서 정확도와 시각적 신뢰성의 향상을 보여준다.

제안 방법

두 단계 학습: AU-근거 자취에 대한 감독 미세조정(SFT)을 먼저 수행한 후 AU-인식 보상에 기반한 강화 학습(GRPO)을 수행한다.
AU-근거 사고: 경계 상자가 AU 관련 얼굴 영역을 참조하는 구조화된 <think>/<bbox>/<answer> 자취를 사용한다.
AU-IoU 보상: 예측된 AU 근거 상자와 외부 AU 검출기 간의 IoU를 사용하여 정렬하고, 보상 해킹을 막기 위해 top-k 평균을 적용한다.
포맷과 보상: 잘 구성된 추론 출력과 올바른 FER 라벨을 촉진하여 학습의 안정화를 도모한다.
TAG-310k: AffectNet, FERPlus, RAF-DB에서 AU 탐지 및 품질 필터링을 거친 대규모 AU-근거 추론 데이터셋.
데이터셋별 강화 학습: 개별 FER 벤치마크에서 최첨단 점수를 달성하기 위한 데이터셋별 미세조정

실험 결과

연구 질문

RQ1AU-근거 중간 추론을 강제하는 것이 ung grounded VLM과 비교해 FER 성능 및 시각적 신뢰성을 향상시키는가?
RQ2AU-인식 강화 학습을 도입하면_reasoning이 안정되고 데이터셋 간 환각이 감소하는가?
RQ3AU-근거 자취와 보상은 FER 벤치마크와 검출기에 걸쳐 일반화되는가?
RQ4SFT와 RL에서 콘텐츠(경계 상자)를 근거화하는 것이 성능에 미치는 영향은 무엇인가?
RQ5AU-근거 학습으로 통합된 모델이 데이터셋별로 조정된 모델과 경쟁할 수 있는가?

주요 결과

TAG는 RAF-DB, FERPlus, AffectNet에서 평균 정확도 최상위(통합 SFT 74.34%)를 달성하여 강력한 오픈 소스 VLM 및 FER 특화 기준선을 능가한다.
데이터셋별 RL을 사용할 경우 TAG는 RAF-DB에서 92.80%, FERPlus에서 91.50%, AffectNet에서 67.03%(평균 83.78%)를 달성한다.
AU-근거 감독 미세조정(SFT)은 정확도와 AU 근거(IoU 46.73)를 substantially 향상시킨다.
AU-근거 보상 없이 RL을 추가하면 근거화(IoU)가 43.46으로 떨어지는 반면 AU-근거 보상은 정확도와 IoU를 모두 향상시킨다(60.24).
AU-IoU 보상은 OpenFace 평가에서 AU-레이블만보다 일반화가 더 잘 되며(예: RAF-DB IoU 61.78 vs 56.46; FERPlus 53.27 vs 50.84)
교차 데이터세트 RL은 내부 도메인 및 교차 도메인 성능 모두를 향상시켜 AU-근거 정책의 전이 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.