QUICK REVIEW

[논문 리뷰] MMA-MRNNet: Harnessing Multiple Models of Affect and Dynamic Masked RNN for Precise Facial Expression Intensity Estimation

Dimitrios Kollias, Andreas Psaroudakis|arXiv (Cornell University)|2023. 03. 01.

Emotion and Mood Recognition인용 수 9

한 줄 요약

FaceRNET은 프레임 단위 영향 표현(VA, AUs, 기본 표현)과 Mask-enabled RNN을 사용하여 가변 영상 길이와 비디오 수준 주석을 처리하는 다이나믹 멀티 출력 얼굴 표정 강도 추정 네트워크로, Hume-Reaction에서 최첨단 성능을 달성합니다.

ABSTRACT

This paper presents MMA-MRNNet, a novel deep learning architecture for dynamic multi-output Facial Expression Intensity Estimation (FEIE) from video data. Traditional approaches to this task often rely on complex 3-D CNNs, which require extensive pre-training and assume that facial expressions are uniformly distributed across all frames of a video. These methods struggle to handle videos of varying lengths, often resorting to ad-hoc strategies that either discard valuable information or introduce bias. MMA-MRNNet addresses these challenges through a two-stage process. First, the Multiple Models of Affect (MMA) extractor component is a Multi-Task Learning CNN that concurrently estimates valence-arousal, recognizes basic facial expressions, and detects action units in each frame. These representations are then processed by a Masked RNN component, which captures temporal dependencies and dynamically updates weights according to the true length of the input video, ensuring that only the most relevant features are used for the final prediction. The proposed unimodal non-ensemble learning MMA-MRNNet was evaluated on the Hume-Reaction dataset and demonstrated significantly superior performance, surpassing state-of-the-art methods by a wide margin, regardless of whether they were unimodal, multimodal, or ensemble approaches. Finally, we demonstrated the effectiveness of the MMA component of our proposed method across multiple in-the-wild datasets, where it consistently outperformed all state-of-the-art methods across various metrics.

연구 동기 및 목표

동적 다출력 FEIE 아키텍처를 도입하여 비디오 수준 주석과 함께 작동한다.
프레임 단위 영향 표현(VA, AUs, 기본 표현)을 활용한 견고한 시간적 모델링.
실제 비디오 길이에 따라 Mask 레이어로 동적으로 RNN 출력을 라우팅하여 가변 프레임 수를 처리한다.
L_REC를 포함한 관계를 내재하는 손실을 통해 학습을 개선한다.
Hume-Reaction 데이터셋에서 기저 방법 및 다중 모달 방법과 비교하여 최첨단 성능을 입증한다.

제안 방법

Affect Representation Extractor Component (REC)은 각 프레임에서 VA, 7개의 기본 표현, 17개의 AU를 예측하는 다중 작업 CNN이다.
REC는 CCC 기반 항목, 교차 엔트로피 손실, 이진 교차 엔트로피, 그리고 AU–표현 관계에 대한 사전 지식을 주입하는 먼 거리 손실 항 L_DM를 포함하는 새로운 손실(L_REC)로 학습된다.
RNN은 프레임별 REC 특징에서 작동하여 비디오 전체의 시간적 다이내믹스를 모델링한다.
Mask 레이어가 실제 비디오 길이에 따라 RNN 출력을 동적으로 라우팅하여 가변 프레임 수를 유연하게 처리한다.
연결된 라우팅 RNN 출력을 밀집 층으로 보내고 그 다음 7개의 표현 강도를 예측하는 출력 층으로 전달한다.
학습은 7개의 표현에 걸쳐 피어슨 상관 기반 손실(1 - 평균 ρ)을 사용하여 평가 지표에 맞춘다.

실험 결과

연구 질문

RQ1프레임 단위 영향 표현(VA, AUs, 기본 표현)이 다중 작업 REC를 통해 비디오 수준 주석에서 FEIE 정확도를 향상시킬 수 있는가?
RQ2Mask 기반의 동적 라우팅 메커니즘이 단일 FEIE 파이프라인에서 가변 길이 비디오를 효과적으로 처리하는가?
RQ3L_DM를 통해 AU–표현 관계에 대한 사전 지식을 통합하면 REC의 그래디언트 품질과 수렴이 향상되는가?
RQ4FaceRNET가 Hume-Reaction 데이터셋에서 단일 및 다중 모달 방식의 최첨단 방법과 비교하여 어떤 차이를 보이는가?
RQ5아키텍처 선택(GRU vs LSTM, 층 수/유닛 수)과 손실 변형이 FEIE 성능에 미치는 영향은 무엇인가?

주요 결과

모델	Pearson’s Correlation Coefficient (ρ)
HFUT-CVers	0.473
USTC-IAT-United	0.438
USTC-AC	0.373
NISL-2023	0.367
ViPER	0.297
FAU-Baseline	0.2801
VGGface 2-Baseline	0.183
Fusion-Baseline	0.203
FaceRNET	0.499

FaceRNET는 테스트 세트에서 최첨단 기저 방법 및 여러 다중 모달 방법을 능가하며 Pearson ρ가 0.499이다.
몰입 연구에서 세 가지 작업 표현(VA, 기본 표현, AU)을 모두 사용할 때 가장 높은 성능을 보이며, 어느 하나의 작업만 사용할 때보다 ρ가 더 높다.
Mask 라우팅 및 제안된 L_REC/L_DM 손실은 동적 라우팅이 없는 변형이나 MSE 손실인 경우보다 성능 향상에 크게 기여한다.
최적의 REC 구성은 128 유닛의 단일 GRU 층과 32 유닛의 Dense 층을 사용하고, 가변 길이 처리를 위한 Mask 레이어를 결합한 것이다.
AU 및 표현 표현만으로도 경쟁력 있는 결과를 보이며, 결합된 표현이 성능을 극대화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.