Skip to main content
QUICK REVIEW

[論文レビュー] A Unified Framework for Emotion Recognition and Sentiment Analysis via Expert-Guided Multimodal Fusion with Large Language Models

Jiaqi Qiao, Xiujuan Xu|arXiv (Cornell University)|Jan 12, 2026
Emotion and Mood Recognition被引用数 0
ひとこと要約

EGMF は、テキスト、音声、視覚信号を三つの専門的エキスパートネットワークと階層的ダイナミックゲーティングで統合し、LoRA調整済みLLMと統合してERC分類とMSA回帰の両方を実行する統一的マルチモーダルフレームワークを提案し、英語と中国語データセットで最先端の結果を達成します。

ABSTRACT

Multimodal emotion understanding requires effective integration of text, audio, and visual modalities for both discrete emotion recognition and continuous sentiment analysis. We present EGMF, a unified framework combining expert-guided multimodal fusion with large language models. Our approach features three specialized expert networks--a fine-grained local expert for subtle emotional nuances, a semantic correlation expert for cross-modal relationships, and a global context expert for long-range dependencies--adaptively integrated through hierarchical dynamic gating for context-aware feature selection. Enhanced multimodal representations are integrated with LLMs via pseudo token injection and prompt-based conditioning, enabling a single generative framework to handle both classification and regression through natural language generation. We employ LoRA fine-tuning for computational efficiency. Experiments on bilingual benchmarks (MELD, CHERMA, MOSEI, SIMS-V2) demonstrate consistent improvements over state-of-the-art methods, with superior cross-lingual robustness revealing universal patterns in multimodal emotional expressions across English and Chinese. We will release the source code publicly.

研究の動機と目的

  • ERCとMSAを跨ぐ統一モデル化の動機づけ。
  • マルチモーダル信号の適応的な専門家主導の融合機構を開発。
  • プロンプトベースの条件付けを用いたLLMによる統一生成タスクの活用。
  • LoRAファインチューニングによる計算効率の改善。
  • 英語と中国語データセットでの跨言語ロバスト性を実証。

提案手法

  • 三つの専門的エキスパートネットワークを導入:細粒度ローカルエキスパート、意味的相関エキスパート、グローバルコンテキストエキスパート。
  • 階層的ダイナミックゲーティングを適用してエキスパート出力を適応的に重み付け・統合。
  • クロスモーダルアテンションを用いて強化されたマルチモーダル表現を作成。
  • 偽トークンを注入し、分類と回帰のためのプロンプトでLLM生成を条件付け。
  • ベースモデルを凍結したままLoRAで効率的にファインチューニング。
Figure 1: Architecture of the proposed EGMF framework.
Figure 1: Architecture of the proposed EGMF framework.

実験結果

リサーチクエスチョン

  • RQ1専門家主導のマルチモーダル融合は統一フレームワークで感情認識と感情分析を改善できるか?
  • RQ2クロスモーダル相互作用と多段階エキスパートは英語と中国語間の跨言語ロバスト性にどのように寄与するか?
  • RQ3LoRAベースのファインチューニングは効率を維持しつつ多言語マルチモーダル情動タスクに十分か?
  • RQ4単一の生成フレームワークでERC分類とMSA回帰を効果的に処理できるか?

主な発見

ModelMOSEI: Acc-2MOSEI: F1MOSEI: Acc-7MOSEI: MAEMOSEI: CorrSIMS-V2: Acc-2SIMS-V2: F1SIMS-V2: Acc2 (weak)SIMS-V2: MAESIMS-V2: Corr
EGMF(GLM3-6B)87.3087.0955.380.4960.80181.5681.1373.090.2840.733
EGMF(llama2-7B)87.1686.9754.730.5000.79677.0476.9370.850.3640.579
EGMF(llama3-8B)86.7586.5847.830.6700.71357.7442.2763.350.3980.640
EGMF(GLM4-9B)87.0887.0054.780.5140.79082.5782.4374.700.2840.720
  • EGMF は四つのバイリンガルデータセット(MELD、CHERMA、MOSEI、SIMS-V2)で最先端または競合的な結果を達成。
  • MOSEI では EGMF with GLM3-6B が Acc-2 87.30、F1 87.09、Acc-7 55.38、MAE 0.496、Corr 0.801 を達成;SIMS-V2 は Acc-2 81.56、F1 81.13、Acc2 (weak) 73.09、MAE 0.284、Corr 0.733 を示す。
  • MELD と CHERMA では EGMF-GLM3-6B が MELD で 65.57 WF1、CHERMA で 73.90 WF1 を達成(MELD は 65.57 WF1、73.22 Acc、CHERMA は 73.97 Acc、73.90 WF1)。
  • 跨言語分析は中国語データセットでの相対的な改善が英語データセットより大きく、CHERMA で +3.36 WF1、SIMS-V2 で +2.24 F1 の改善を示す。
  • LoRAファインチューニングは英語で一貫した利益を示し(0.74%-1.40%)、中国語データセットでは一部低下が見られ、言語特有の適応が必要であることを示唆。
  • アブレーションによりテキストモダリティが最も重要であり、テキストを除くと性能が著しく低下;E1およびE3(ローカルおよびグローバルエキスパート)が顕著に寄与し、E2 が安定的な向上を提供。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。