[論文レビュー] A Unified Framework for Emotion Recognition and Sentiment Analysis via Expert-Guided Multimodal Fusion with Large Language Models
EGMF は、テキスト、音声、視覚信号を三つの専門的エキスパートネットワークと階層的ダイナミックゲーティングで統合し、LoRA調整済みLLMと統合してERC分類とMSA回帰の両方を実行する統一的マルチモーダルフレームワークを提案し、英語と中国語データセットで最先端の結果を達成します。
Multimodal emotion understanding requires effective integration of text, audio, and visual modalities for both discrete emotion recognition and continuous sentiment analysis. We present EGMF, a unified framework combining expert-guided multimodal fusion with large language models. Our approach features three specialized expert networks--a fine-grained local expert for subtle emotional nuances, a semantic correlation expert for cross-modal relationships, and a global context expert for long-range dependencies--adaptively integrated through hierarchical dynamic gating for context-aware feature selection. Enhanced multimodal representations are integrated with LLMs via pseudo token injection and prompt-based conditioning, enabling a single generative framework to handle both classification and regression through natural language generation. We employ LoRA fine-tuning for computational efficiency. Experiments on bilingual benchmarks (MELD, CHERMA, MOSEI, SIMS-V2) demonstrate consistent improvements over state-of-the-art methods, with superior cross-lingual robustness revealing universal patterns in multimodal emotional expressions across English and Chinese. We will release the source code publicly.
研究の動機と目的
- ERCとMSAを跨ぐ統一モデル化の動機づけ。
- マルチモーダル信号の適応的な専門家主導の融合機構を開発。
- プロンプトベースの条件付けを用いたLLMによる統一生成タスクの活用。
- LoRAファインチューニングによる計算効率の改善。
- 英語と中国語データセットでの跨言語ロバスト性を実証。
提案手法
- 三つの専門的エキスパートネットワークを導入:細粒度ローカルエキスパート、意味的相関エキスパート、グローバルコンテキストエキスパート。
- 階層的ダイナミックゲーティングを適用してエキスパート出力を適応的に重み付け・統合。
- クロスモーダルアテンションを用いて強化されたマルチモーダル表現を作成。
- 偽トークンを注入し、分類と回帰のためのプロンプトでLLM生成を条件付け。
- ベースモデルを凍結したままLoRAで効率的にファインチューニング。

実験結果
リサーチクエスチョン
- RQ1専門家主導のマルチモーダル融合は統一フレームワークで感情認識と感情分析を改善できるか?
- RQ2クロスモーダル相互作用と多段階エキスパートは英語と中国語間の跨言語ロバスト性にどのように寄与するか?
- RQ3LoRAベースのファインチューニングは効率を維持しつつ多言語マルチモーダル情動タスクに十分か?
- RQ4単一の生成フレームワークでERC分類とMSA回帰を効果的に処理できるか?
主な発見
| Model | MOSEI: Acc-2 | MOSEI: F1 | MOSEI: Acc-7 | MOSEI: MAE | MOSEI: Corr | SIMS-V2: Acc-2 | SIMS-V2: F1 | SIMS-V2: Acc2 (weak) | SIMS-V2: MAE | SIMS-V2: Corr |
|---|---|---|---|---|---|---|---|---|---|---|
| EGMF(GLM3-6B) | 87.30 | 87.09 | 55.38 | 0.496 | 0.801 | 81.56 | 81.13 | 73.09 | 0.284 | 0.733 |
| EGMF(llama2-7B) | 87.16 | 86.97 | 54.73 | 0.500 | 0.796 | 77.04 | 76.93 | 70.85 | 0.364 | 0.579 |
| EGMF(llama3-8B) | 86.75 | 86.58 | 47.83 | 0.670 | 0.713 | 57.74 | 42.27 | 63.35 | 0.398 | 0.640 |
| EGMF(GLM4-9B) | 87.08 | 87.00 | 54.78 | 0.514 | 0.790 | 82.57 | 82.43 | 74.70 | 0.284 | 0.720 |
- EGMF は四つのバイリンガルデータセット(MELD、CHERMA、MOSEI、SIMS-V2)で最先端または競合的な結果を達成。
- MOSEI では EGMF with GLM3-6B が Acc-2 87.30、F1 87.09、Acc-7 55.38、MAE 0.496、Corr 0.801 を達成;SIMS-V2 は Acc-2 81.56、F1 81.13、Acc2 (weak) 73.09、MAE 0.284、Corr 0.733 を示す。
- MELD と CHERMA では EGMF-GLM3-6B が MELD で 65.57 WF1、CHERMA で 73.90 WF1 を達成(MELD は 65.57 WF1、73.22 Acc、CHERMA は 73.97 Acc、73.90 WF1)。
- 跨言語分析は中国語データセットでの相対的な改善が英語データセットより大きく、CHERMA で +3.36 WF1、SIMS-V2 で +2.24 F1 の改善を示す。
- LoRAファインチューニングは英語で一貫した利益を示し(0.74%-1.40%)、中国語データセットでは一部低下が見られ、言語特有の適応が必要であることを示唆。
- アブレーションによりテキストモダリティが最も重要であり、テキストを除くと性能が著しく低下;E1およびE3(ローカルおよびグローバルエキスパート)が顕著に寄与し、E2 が安定的な向上を提供。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。