Skip to main content
QUICK REVIEW

[논문 리뷰] Video Joint-Embedding Predictive Architectures for Facial Expression Recognition

Lennart Eing, Cristina Luna-Jiménez|arXiv (Cornell University)|2026. 01. 14.
Emotion and Mood Recognition인용 수 0
한 줄 요약

논문은 얼굴 표정 인식을 위해 Video Joint-Embedding Predictive Architecture (V-JEPA)를 고정된 비디오 인코더로 사용하고, 얕은 분류기를 학습시켜 RAVDESS에서 최첨단 결과를 달성하고 CREMA-D에서 강력한 성능을 보이며 교차 데이터셋 일반화가 뚜렷하다.

ABSTRACT

This paper introduces a novel application of Video Joint-Embedding Predictive Architectures (V-JEPAs) for Facial Expression Recognition (FER). Departing from conventional pre-training methods for video understanding that rely on pixel-level reconstructions, V-JEPAs learn by predicting embeddings of masked regions from the embeddings of unmasked regions. This enables the trained encoder to not capture irrelevant information about a given video like the color of a region of pixels in the background. Using a pre-trained V-JEPA video encoder, we train shallow classifiers using the RAVDESS and CREMA-D datasets, achieving state-of-the-art performance on RAVDESS and outperforming all other vision-based methods on CREMA-D (+1.48 WAR). Furthermore, cross-dataset evaluations reveal strong generalization capabilities, demonstrating the potential of purely embedding-based pre-training approaches to advance FER. We release our code at https://github.com/lennarteingunia/vjepa-for-fer.

연구 동기 및 목표

  • PIXEL-단위 예전 재구성은 필요하지 않은 FER의 과제로 동기를 부여한다.
  • PIXEL-단위 재구성 없이 학습된 V-JEPA 임베딩이 얕은 분류기와 함께 사용될 때 강력한 FER 성능을 얻을 수 있음을 보인다.
  • 실험실 환경에서의 FER 데이터셋에서 최첨단 결과를 달성하고 교차 데이터셋 일반화를 평가한다.

제안 방법

  • 고정 가중치를 가진 사전 학습된 V-JEPA 비디오 인코더를 백본으로 사용한다.
  • 분류를 위한 어텐티브 프로브를 사용하여 고정된 V-JEPA 임베딩 위에 얕은 분류기를 학습시킨다.
  • 16프레임 클립을 추출하여 전체 비디오를 분류하고, MV 또는 PBV를 적용하며, PBV를 주요 결과로 보고한다.
  • MLP 헤드 앞에서 임베딩을 단일 분류 토큰으로 매핑하기 위해 어텐티브 풀링 전략을 활용한다.
  • RAVDESS와 CREMA-D에서 5-fold 피험자 독립 교차 검증을 사용하고 교차 데이터셋 평가를 수행한다.

실험 결과

연구 질문

  • RQ1PIXEL-단위 재구성 없이 학습된 V-JEPA가 얕은 분류기와 함께 사용할 때 경쟁력 있는 FER 성능에 충분한 임베딩을 제공하는가?
  • RQ2대규모 작업-무관 학습에서의 임베딩이 서로 다른 피험자 분포를 가진 FER 데이터셋 간에 일반화되는가?
  • RQ3클립 수준 예측을 비디오 수준 FER으로 집계하는 데 MV와 PBV 중 어떤 방식이 더 우수한가?
  • RQ4RAVDESS와 CREMA-D 간의 V-JEPA 기반 FER 모델의 교차 데이터셋 이전 가능성은 어떠한가?
  • RQ5_ENCODER를 미세조정하지 않고도 V-JEPA 기반 FER 모델의 교차 데이터셋 전이 가능성이 있는가?

주요 결과

  • On RAVDESS, PBV yields UAR 76.40 and WAR 72.93 (MV yields 76.38 and 73.80).
  • On CREMA-D, PBV yields UAR 79.39 and WAR 78.86 (MV yields 79.13 and 78.47).
  • Cross-dataset evaluation shows CREMA-D trained models achieve relatively strong WAR on RAVDESS (around 75.59 with one setup, 70–76 range depending on label handling).
  • Cross-dataset results when testing CREMA-D on RAVDESS indicate higher transferability than the reverse (RAVDESS-trained models perform worse on CREMA-D).
  • Models trained on CREMA-D show behavior consistent with combining certain baseline emotions (e.g., calm) with neutral, affecting certain confusion patterns as discussed in the paper.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.