QUICK REVIEW

[論文レビュー] Video Joint-Embedding Predictive Architectures for Facial Expression Recognition

Lennart Eing, Cristina Luna-Jiménez|arXiv (Cornell University)|Jan 14, 2026

Emotion and Mood Recognition被引用数 0

ひとこと要約

この論文は、Video Joint-Embedding Predictive Architecture (V-JEPA) を凍結された video encoder として顔表情認識に適用し、浅い分類器を訓練して RAVDESS で最先端の結果を達成し、CREMA-D でも強力な性能を示し、データセットを越えた一般化を顕著に示している。

ABSTRACT

This paper introduces a novel application of Video Joint-Embedding Predictive Architectures (V-JEPAs) for Facial Expression Recognition (FER). Departing from conventional pre-training methods for video understanding that rely on pixel-level reconstructions, V-JEPAs learn by predicting embeddings of masked regions from the embeddings of unmasked regions. This enables the trained encoder to not capture irrelevant information about a given video like the color of a region of pixels in the background. Using a pre-trained V-JEPA video encoder, we train shallow classifiers using the RAVDESS and CREMA-D datasets, achieving state-of-the-art performance on RAVDESS and outperforming all other vision-based methods on CREMA-D (+1.48 WAR). Furthermore, cross-dataset evaluations reveal strong generalization capabilities, demonstrating the potential of purely embedding-based pre-training approaches to advance FER. We release our code at https://github.com/lennarteingunia/vjepa-for-fer.

研究の動機と目的

ピクセルレベルの前処理再構成が必ずしも必要でないタスクとしてFERを動機づける。
ピクセルレベルの再構成なしで学習された V-JEPA の埋め込みが、浅い分類器と組み合わせて強力なFER性能を生み出せることを示す。
ラボ制御されたFERデータセットでの最先端結果を示し、データセット間の一般化を評価する。

提案手法

事前学習済みの V-JEPA video エンコーダを凍結したバックボーンとして使用。
凍結された V-JEPA の埋め込みの上に浅い分類器を訓練し、分類のための attentive probe を使用。
16 フレームのクリップを抽出して全動画を分類し、Maximum Voting (MV) または Posteriors-based Voting (PBV) を適用。PBV を主要な報告指標として用いる。
埋め込みを MLP ヘッドの前に単一の分類トークンへマッピングする attentive pooling 戦略を採用。
5-fold subject-independent クロスバリデーションで RAVDESS と CREMA-D を評価し、データセット間評価を実施。

実験結果

リサーチクエスチョン

RQ1ピクセルレベルの再構成を伴わない学習で得られた埋め込みが、浅い分類器と組み合わせた場合に競争力のFER性能を発揮できるか。
RQ2大規模でタスク非依存の事前学習から得られた埋め込みは、異なる被験者分布を持つFERデータセット間で一般化するか。
RQ3クリップレベルの予測を動画レベルFERに集約する際、MV と PBV はどう異なるか。
RQ4RAVDESS と CREMA-D の間で、V-JEPA ベースのFERモデルのデータセット間転移性はどの程度か。
RQ5 encoder をファインチューニングせずに、V-JEPA に基づく FER モデルはラボ制御とクロスデータセットのシナリオで拡張されるか。

主な発見

RAVDESS では PBV が UAR 76.40、WAR 72.93（MV は 76.38、73.80）。
CREMA-D では PBV が UAR 79.39、WAR 78.86（MV は 79.13、78.47）。
クロスデータセット評価では CREMA-D で学習したモデルが RAVDESS で比較的強い WAR を達成（約 75.59 程度の設定、ラベル処理により 70–76 の範囲）。
CREMA-D を用いたクロスデータセット結果は、逆転より転移性が高いことを示す（RAVDESS で学習したモデルは CREMA-D での性能が低い）。
CREMA-D で訓練されたモデルは、特定の基本感情（例: calm）をニュートラルと組み合わせる挙動を示すなど、論文で議論されている混同行列パターンに影響を与える挙動を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。