QUICK REVIEW

[論文レビュー] Weak to Strong: VLM-Based Pseudo-Labeling as a Weakly Supervised Training Strategy in Multimodal Video-based Hidden Emotion Understanding Tasks

Yufei Wang, Haixu Liu|arXiv (Cornell University)|Feb 8, 2026

Emotion and Mood Recognition被引用数 0

ひとこと要約

本論文は、VLM生成の疑似ラベルをトリモーダルパイプライン（画像、キーポイント、テキスト）と統合した動画ベースの弱教師あり隠れ感情理解のマルチモーダルフレームワークを提案し、iMiGUEで最先端の結果を示し、MLPベースのキーポイントバックボーンがGCNと同等の性能を発揮します。

ABSTRACT

To tackle the automatic recognition of "concealed emotions" in videos, this paper proposes a multimodal weak-supervision framework and achieves state-of-the-art results on the iMiGUE tennis-interview dataset. First, YOLO 11x detects and crops human portraits frame-by-frame, and DINOv2-Base extracts visual features from the cropped regions. Next, by integrating Chain-of-Thought and Reflection prompting (CoT + Reflection), Gemini 2.5 Pro automatically generates pseudo-labels and reasoning texts that serve as weak supervision for downstream models. Subsequently, OpenPose produces 137-dimensional key-point sequences, augmented with inter-frame offset features; the usual graph neural network backbone is simplified to an MLP to efficiently model the spatiotemporal relationships of the three key-point streams. An ultra-long-sequence Transformer independently encodes both the image and key-point sequences, and their representations are concatenated with BERT-encoded interview transcripts. Each modality is first pre-trained in isolation, then fine-tuned jointly, with pseudo-labeled samples merged into the training set for further gains. Experiments demonstrate that, despite severe class imbalance, the proposed approach lifts accuracy from under 0.6 in prior work to over 0.69, establishing a new public benchmark. The study also validates that an "MLP-ified" key-point backbone can match - or even surpass - GCN-based counterparts in this task.

研究の動機と目的

限られたラベルデータでの動画内の隠れた感情を認識する課題に対処する。
大規模な視覚言語モデルを活用して疑似ラベルを生成するマルチモーダル弱教師あり学習パイプラインを開発する。
キーポイントバックボーンをMLPへ単純化して、GCNベースの手法と比較して同等以上の性能を得られるか評価する。

提案手法

YOLOv11xで各フレームの人物肖像を切り取り、Dinov2-Baseで画像特徴をエンコードする。
OpenPoseの137点を抽出し、フレーム間オフセットを計算して三つのキーポイントストリーム（スケルトン、顔、手）を形成し、Transformerでモデル化する。代替としてMLPバックボーンを用いGCNを用いない。
Gemini 2.5 ProとCoT+Reflectionプロンプトを用いて疑似ラベルと推論テキストを生成し、テストサンプルの勝敗を疑似ラベルとして選択する。
生成されたテキストをBERT-Baseでエンコードし、画像、キーポイント、テキストを連結と残差融合層で統合する。
モダリティ別バックボーンを先に訓練し、次にテストセットからGemini生成の疑似ラベルを用いた弱教師付き微調整を第2段階として実施する。

Figure 1: Visualization of Openpose Keypoint Connection

実験結果

リサーチクエスチョン

RQ1VLM生成の疑似ラベルを活用した弱教師ありのマルチモーダルフレームワークは、動画の隠れ感情認識で既存手法を上回ることができるか。
RQ2MLPベースのキーポイントバックボーンは、このタスクの時空間キーポイントモデリングにおいてグラフベースのバックボーン（GCN/GAT/GIN）と比べて競争力があるか。
RQ3オフセット特徴エンジニアリングとTransformerによる長いシーケンスの時系列モデリングは、フレームベース手法と比べて性能を向上させるか。
RQ4モダリティ別事前学習と弱教師あり学習の最終精度への影響はどのようになるか。
RQ5CoT+Reflectionプロンプトを用いて生成されたテキストをVLMで組み込むことは、隠れ感情理解のマルチモーダル融合を有意に改善するか。

主な発見

提案手法はiMiGUEデータセットで最先端の精度を達成し、0.6未満だった従来の研究を上回り、0.69超えに達する。
オフセット特徴を備えたMLPベースのキーポイントバックボーンはGCNベースのバックボーンと同等かそれを上回る性能を示し、より単純で効率的な代替を提供する。
画像特徴の長いシーケンスTransformerによる密なフレームサンプリングは、はるかに少ないフレームをサンプルするXCLIPベースラインと比較して競争力のある性能を示す。
モダリティ別事前学習とGemini生成の疑似ラベルを用いた二段階訓練は最も強い改善をもたらし、オフセット特徴と事前学習を含む場合精度は最大69.23%に達する。
Gemini 2.5 Pro由来の疑似ラベルは、CoT+Reflectionプロンプトに導かれ、弱教師あり学習の訓練データと組み合わせることで精度向上に寄与する。
単純な連結と残差融合層によるクロスモーダル融合は、データ量が限定的なため複雑なクロスアテンション融合よりも安定性の利点があり、より良い性能を示す。

Figure 2: Visualization of frames Distribution

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。