QUICK REVIEW

[論文レビュー] A Unified Framework for Emotion Recognition and Sentiment Analysis via Expert-Guided Multimodal Fusion with Large Language Models

Jiaqi Qiao, Xiujuan Xu|arXiv (Cornell University)|Jan 12, 2026

Emotion and Mood Recognition被引用数 0

ひとこと要約

EGMF は、テキスト、音声、視覚信号を三つの専門的エキスパートネットワークと階層的ダイナミックゲーティングで統合し、LoRA調整済みLLMと統合してERC分類とMSA回帰の両方を実行する統一的マルチモーダルフレームワークを提案し、英語と中国語データセットで最先端の結果を達成します。

ABSTRACT

Multimodal emotion understanding requires effective integration of text, audio, and visual modalities for both discrete emotion recognition and continuous sentiment analysis. We present EGMF, a unified framework combining expert-guided multimodal fusion with large language models. Our approach features three specialized expert networks--a fine-grained local expert for subtle emotional nuances, a semantic correlation expert for cross-modal relationships, and a global context expert for long-range dependencies--adaptively integrated through hierarchical dynamic gating for context-aware feature selection. Enhanced multimodal representations are integrated with LLMs via pseudo token injection and prompt-based conditioning, enabling a single generative framework to handle both classification and regression through natural language generation. We employ LoRA fine-tuning for computational efficiency. Experiments on bilingual benchmarks (MELD, CHERMA, MOSEI, SIMS-V2) demonstrate consistent improvements over state-of-the-art methods, with superior cross-lingual robustness revealing universal patterns in multimodal emotional expressions across English and Chinese. We will release the source code publicly.

研究の動機と目的

ERCとMSAを跨ぐ統一モデル化の動機づけ。
マルチモーダル信号の適応的な専門家主導の融合機構を開発。
プロンプトベースの条件付けを用いたLLMによる統一生成タスクの活用。
LoRAファインチューニングによる計算効率の改善。
英語と中国語データセットでの跨言語ロバスト性を実証。

提案手法

三つの専門的エキスパートネットワークを導入：細粒度ローカルエキスパート、意味的相関エキスパート、グローバルコンテキストエキスパート。
階層的ダイナミックゲーティングを適用してエキスパート出力を適応的に重み付け・統合。
クロスモーダルアテンションを用いて強化されたマルチモーダル表現を作成。
偽トークンを注入し、分類と回帰のためのプロンプトでLLM生成を条件付け。
ベースモデルを凍結したままLoRAで効率的にファインチューニング。

Figure 1: Architecture of the proposed EGMF framework.

実験結果

リサーチクエスチョン

RQ1専門家主導のマルチモーダル融合は統一フレームワークで感情認識と感情分析を改善できるか？
RQ2クロスモーダル相互作用と多段階エキスパートは英語と中国語間の跨言語ロバスト性にどのように寄与するか？
RQ3LoRAベースのファインチューニングは効率を維持しつつ多言語マルチモーダル情動タスクに十分か？
RQ4単一の生成フレームワークでERC分類とMSA回帰を効果的に処理できるか？

主な発見

Model	MOSEI: Acc-2	MOSEI: F1	MOSEI: Acc-7	MOSEI: MAE	MOSEI: Corr	SIMS-V2: Acc-2	SIMS-V2: F1	SIMS-V2: Acc2 (weak)	SIMS-V2: MAE	SIMS-V2: Corr
EGMF(GLM3-6B)	87.30	87.09	55.38	0.496	0.801	81.56	81.13	73.09	0.284	0.733
EGMF(llama2-7B)	87.16	86.97	54.73	0.500	0.796	77.04	76.93	70.85	0.364	0.579
EGMF(llama3-8B)	86.75	86.58	47.83	0.670	0.713	57.74	42.27	63.35	0.398	0.640
EGMF(GLM4-9B)	87.08	87.00	54.78	0.514	0.790	82.57	82.43	74.70	0.284	0.720

EGMF は四つのバイリンガルデータセット（MELD、CHERMA、MOSEI、SIMS-V2）で最先端または競合的な結果を達成。
MOSEI では EGMF with GLM3-6B が Acc-2 87.30、F1 87.09、Acc-7 55.38、MAE 0.496、Corr 0.801 を達成；SIMS-V2 は Acc-2 81.56、F1 81.13、Acc2 (weak) 73.09、MAE 0.284、Corr 0.733 を示す。
MELD と CHERMA では EGMF-GLM3-6B が MELD で 65.57 WF1、CHERMA で 73.90 WF1 を達成（MELD は 65.57 WF1、73.22 Acc、CHERMA は 73.97 Acc、73.90 WF1）。
跨言語分析は中国語データセットでの相対的な改善が英語データセットより大きく、CHERMA で +3.36 WF1、SIMS-V2 で +2.24 F1 の改善を示す。
LoRAファインチューニングは英語で一貫した利益を示し（0.74%-1.40%）、中国語データセットでは一部低下が見られ、言語特有の適応が必要であることを示唆。
アブレーションによりテキストモダリティが最も重要であり、テキストを除くと性能が著しく低下；E1およびE3（ローカルおよびグローバルエキスパート）が顕著に寄与し、E2 が安定的な向上を提供。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。