[論文レビュー] Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning
Emotion-LLaMA は感情特化エンコーダと指示調整を介して、音声・視覚・テキスト入力を統合し、最先端のマルチモーダル感情認識と推論を達成します。事前学習には MERR データセットを用い、EMER、MER2023、DFEW に対してゼロショットおよび微調整済みの高い性能を示します。
Accurate emotion perception is crucial for various applications, including human-computer interaction, education, and counseling. However, traditional single-modality approaches often fail to capture the complexity of real-world emotional expressions, which are inherently multimodal. Moreover, existing Multimodal Large Language Models (MLLMs) face challenges in integrating audio and recognizing subtle facial micro-expressions. To address this, we introduce the MERR dataset, containing 28,618 coarse-grained and 4,487 fine-grained annotated samples across diverse emotional categories. This dataset enables models to learn from varied scenarios and generalize to real-world applications. Furthermore, we propose Emotion-LLaMA, a model that seamlessly integrates audio, visual, and textual inputs through emotion-specific encoders. By aligning features into a shared space and employing a modified LLaMA model with instruction tuning, Emotion-LLaMA significantly enhances both emotional recognition and reasoning capabilities. Extensive evaluations show Emotion-LLaMA outperforms other MLLMs, achieving top scores in Clue Overlap (7.83) and Label Overlap (6.25) on EMER, an F1 score of 0.9036 on MER2023-SEMI challenge, and the highest UAR (45.59) and WAR (59.37) in zero-shot evaluations on DFEW dataset.
研究の動機と目的
- 現実世界の多モーダル環境で、単一モダリティを超えた正確な感情認識を促進する。
- 大規模で多様なデータセット(MERR)を提供し、粗粒度および細粒度の感情アノテーションを通じてマルチモーダル感情モデルを訓練する。
- 感情特化エンコーダと指示調整を用いて音声・視覚・テキスト入力を統合するEmotion-LLaMA を提案する。
- 複数のベンチマークで感情認識の精度と推論能力の両方を向上させる。
提案手法
- diverse emotions に跨る 28,618 条粗粒度サンプルと 4,487 条細粒度サンプルからなる MERR データセットを構築する。
- 音声エンコーダとして HuBERT を使用し、視覚特徴を補完的に抽出する multiview visual encoder(MAE、VideoMAE、EVA)を用いる。
- 言語埋め込みトークンへ trainable な線形射影を介して音声と視覚特徴を共有空間に整列させる。
- 指示調整を組み込んだ改変 LLaMA 言語モデルを用いてマルチモーダル推論と生成を行う。
- MERR での事前学習の後、MER2023 および DFEW のマルチモーダル指示調整を通じてコース(粗から細)で訓練を進める。
実験結果
リサーチクエスチョン
- RQ1既存の MLLM より、感情特化のマルチモーダルエンコーダは認識と推論を改善できるか。
- RQ2多様でアノテーションされたマルチモーダル感情データセットによる指示調整はゼロショットおよび微調整済みの性能を高めるか。
- RQ3音声と多視点の視覚手がかりは、堅牢な感情理解と推論にどう寄与するか。
- RQ4MERR での事前学習が、下流の感情タスクに対して他データと比較してどのような影響を与えるか。
主な発見
| モデル | Clue Overlap | Label Overlap | F1 (MER2023) | UAR (DFEW) | WAR (DFEW) |
|---|---|---|---|---|---|
| VideoChat-Text | 6.42 | 3.94 | - | - | - |
| Video-LLaMA | 6.64 | 4.89 | - | - | - |
| Video-ChatGPT | 6.95 | 5.74 | - | - | - |
| PandaGPT | 7.14 | 5.51 | - | - | - |
| VideoChat-Embed | 7.15 | 5.65 | - | - | - |
| Valley | 7.24 | 5.77 | - | - | - |
| Emotion-LLaMA (ours) | 7.83 | 6.25 | - | - | - |
| EC-STFl | - | - | - | 45.35 | 56.51 |
| Former-DFER | - | - | - | 53.69 | 65.70 |
| IAL | - | - | - | 55.71 | 69.24 |
| MAE-DFER | - | - | - | 63.41 | 74.43 |
| VideoMAE | - | - | - | 63.60 | 74.60 |
| Emotion-LLaMA (ours) | - | - | - | 64.21 | 77.06 |
- Emotion-LLaMA は EMER で最高の Clue Overlap(7.83)と Label Overlap(6.25)を達成。
- MER2023 データセットで F1 スコア 0.9036 を達成。
- ゼロショットの DFEW 評価で最高の UAR(45.59)および WAR(59.37)を達成。
- MER2023 では A+V+T モダリティを使用すると F1 が 0.9036 に向上。
- 比較を通じて、Emotion-LLaMA は複数のベンチマークで他の MLLM を上回る。
- モデルは訓練可能パラメータ 34M のみ(総量の約0.495%)で、効率的な微調整を実現。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。