QUICK REVIEW

[논문 리뷰] Video Joint-Embedding Predictive Architectures for Facial Expression Recognition

Lennart Eing, Cristina Luna-Jiménez|arXiv (Cornell University)|2026. 01. 14.

Emotion and Mood Recognition인용 수 0

한 줄 요약

논문은 얼굴 표정 인식을 위해 Video Joint-Embedding Predictive Architecture (V-JEPA)를 고정된 비디오 인코더로 사용하고, 얕은 분류기를 학습시켜 RAVDESS에서 최첨단 결과를 달성하고 CREMA-D에서 강력한 성능을 보이며 교차 데이터셋 일반화가 뚜렷하다.

ABSTRACT

This paper introduces a novel application of Video Joint-Embedding Predictive Architectures (V-JEPAs) for Facial Expression Recognition (FER). Departing from conventional pre-training methods for video understanding that rely on pixel-level reconstructions, V-JEPAs learn by predicting embeddings of masked regions from the embeddings of unmasked regions. This enables the trained encoder to not capture irrelevant information about a given video like the color of a region of pixels in the background. Using a pre-trained V-JEPA video encoder, we train shallow classifiers using the RAVDESS and CREMA-D datasets, achieving state-of-the-art performance on RAVDESS and outperforming all other vision-based methods on CREMA-D (+1.48 WAR). Furthermore, cross-dataset evaluations reveal strong generalization capabilities, demonstrating the potential of purely embedding-based pre-training approaches to advance FER. We release our code at https://github.com/lennarteingunia/vjepa-for-fer.

연구 동기 및 목표

PIXEL-단위 예전 재구성은 필요하지 않은 FER의 과제로 동기를 부여한다.
PIXEL-단위 재구성 없이 학습된 V-JEPA 임베딩이 얕은 분류기와 함께 사용될 때 강력한 FER 성능을 얻을 수 있음을 보인다.
실험실 환경에서의 FER 데이터셋에서 최첨단 결과를 달성하고 교차 데이터셋 일반화를 평가한다.

제안 방법

고정 가중치를 가진 사전 학습된 V-JEPA 비디오 인코더를 백본으로 사용한다.
분류를 위한 어텐티브 프로브를 사용하여 고정된 V-JEPA 임베딩 위에 얕은 분류기를 학습시킨다.
16프레임 클립을 추출하여 전체 비디오를 분류하고, MV 또는 PBV를 적용하며, PBV를 주요 결과로 보고한다.
MLP 헤드 앞에서 임베딩을 단일 분류 토큰으로 매핑하기 위해 어텐티브 풀링 전략을 활용한다.
RAVDESS와 CREMA-D에서 5-fold 피험자 독립 교차 검증을 사용하고 교차 데이터셋 평가를 수행한다.

실험 결과

연구 질문

RQ1PIXEL-단위 재구성 없이 학습된 V-JEPA가 얕은 분류기와 함께 사용할 때 경쟁력 있는 FER 성능에 충분한 임베딩을 제공하는가?
RQ2대규모 작업-무관 학습에서의 임베딩이 서로 다른 피험자 분포를 가진 FER 데이터셋 간에 일반화되는가?
RQ3클립 수준 예측을 비디오 수준 FER으로 집계하는 데 MV와 PBV 중 어떤 방식이 더 우수한가?
RQ4RAVDESS와 CREMA-D 간의 V-JEPA 기반 FER 모델의 교차 데이터셋 이전 가능성은 어떠한가?
RQ5_ENCODER를 미세조정하지 않고도 V-JEPA 기반 FER 모델의 교차 데이터셋 전이 가능성이 있는가?

주요 결과

On RAVDESS, PBV yields UAR 76.40 and WAR 72.93 (MV yields 76.38 and 73.80).
On CREMA-D, PBV yields UAR 79.39 and WAR 78.86 (MV yields 79.13 and 78.47).
Cross-dataset evaluation shows CREMA-D trained models achieve relatively strong WAR on RAVDESS (around 75.59 with one setup, 70–76 range depending on label handling).
Cross-dataset results when testing CREMA-D on RAVDESS indicate higher transferability than the reverse (RAVDESS-trained models perform worse on CREMA-D).
Models trained on CREMA-D show behavior consistent with combining certain baseline emotions (e.g., calm) with neutral, affecting certain confusion patterns as discussed in the paper.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.