[論文レビュー] Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding
Emotion-LLaMAv2 は Conv Attention 前融合モジュールと perception-to-cognition カリキュラムを備えたエンドツーエンドの多模態感情理解フレームワークを提案し、統一バ benchmark MMEVerse で評価。オープンソースの MLLMs よりも最先端の結果と良好な一般化を実現。
Understanding human emotions from multimodal signals poses a significant challenge in affective computing and human-robot interaction. While multimodal large language models (MLLMs) have excelled in general vision-language tasks, their capabilities in emotional reasoning remain limited. The field currently suffers from a scarcity of large-scale datasets with high-quality, descriptive emotion annotations and lacks standardized benchmarks for evaluation. Our preliminary framework, Emotion-LLaMA, pioneered instruction-tuned multimodal learning for emotion reasoning but was restricted by explicit face detectors, implicit fusion strategies, and low-quality training data with limited scale. To address these limitations, we present Emotion-LLaMAv2 and the MMEVerse benchmark, establishing an end-to-end pipeline together with a standardized evaluation setting for emotion recognition and reasoning. Emotion-LLaMAv2 introduces three key advances. First, an end-to-end multiview encoder eliminates external face detection and captures nuanced emotional cues via richer spatial and temporal multiview tokens. Second, a Conv Attention pre-fusion module is designed to enable simultaneous local and global multimodal feature interactions external to the LLM backbone. Third, a perception-to-cognition curriculum instruction tuning scheme within the LLaMA2 backbone unifies emotion recognition and free-form emotion reasoning. To support large-scale training and reproducible evaluation, MMEVerse aggregates twelve publicly available emotion datasets, including IEMOCAP, MELD, DFEW, and MAFW, into a unified multimodal instruction format. The data are re-annotated via a multi-agent pipeline involving Qwen2 Audio, Qwen2.5 VL, and GPT 4o, producing 130k training clips and 36k testing clips across 18 evaluation benchmarks.
研究の動機と目的
- オーディオ、ビジュアル、テキスト信号を横断して知覚と意味的推論を結びつける頑健な多模態感情理解を動機づける。
- 外部顔検出器への依存を排除し、エンドツーエンドのトレーニングとより豊かな感情手がかりを可能にする。
- カリキュラム指示調整を通じて語モデルフレームワーク内で感情認識と感情推論を統一する。
- 再現可能な評価のために多様なデータセットとタスクを横断する大規模で標準化されたベンチマーク(MMEVerse)を提供する。
提案手法
- エンドツーエンドの多模態エンコーダを開発し、空間的・時間的・プロソディック手がかりを捉えるマルチビュー視覚エンコーダとオーディオエンコーダを備える。
- LLM入力前に局所的・グローバルなクロスモーダル相互作用を同時に実現するConv Attention前融合モジュールを導入する。
- モーダルアダプタを介して統合された多模態表現をLLM空間に整列させ、感情タスクに対する LoRA 調整済みの指示追従を可能にする。
- LLaMA2 ボトネック内で基本的な感情認識から文脈依存の感情推論へと学習を段階的に進める perception-to-cognition カリキュラムを適用する。
- 12 件のデータセットを統一的な指示調整フォーマットに集約し、マルチエージェントパイプラインで再注釈して 130k 個のトレーニングクリップと 36k 個のテストクリップを生成することで MMEVerse を構築する。
実験結果
リサーチクエスチョン
- RQ1エ explicit face detectors を使用せずにエンドツーエンドの多模態感情理解をどのように達成できるか。
- RQ2Conv Attention前融合モジュールは感情知覚のためのクロスモーダル相互作用を改善できるか。
- RQ3カリキュラムベースの指示調整は統一されたLLMフレームワークにおける感情認識と推論の両方を改善するか。
- RQ4MMEVerse のような大規模で標準化されたベンチマークは、さまざまなデータセットを横断した多模態感情モデルの訓練と評価に有効か。
主な発見
- Emotion-LLaMAv2 は MER-UniBench と MMEVerse-Bench において代表的なオープンソース MLLMs を上回る。
- モデルは一般化の向上とより構造化された多模態推論挙動を示す。
- MMEVerse は 18 ベンチマークに跨る 129k トレーニングクリップと 36k テストクリップを含む統一的で拡張可能なリソースを提供する。
- Emotion-LLaMAv2 は Qwen2.5 Omni、HumanOmni、AffectGPT と比較して競争力のあるまたは優位な結果を達成する。
- アブレーション研究はエンドツーエンドのエンコード、Conv Attention 融合、perception-to-cognition カリキュラムの利点を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。