[論文レビュー] Explainable Multimodal Emotion Recognition
本論文は Explainable Multimodal Emotion Reasoning (EMER) を提案する。感情を説明付きで予測するタスク、新規データセット、マルチモーダルLLMのベースライン、評価指標、感情計算のためのマルチモーダルLLM AffectGPT を紹介。
Multimodal emotion recognition is an important research topic in artificial intelligence, whose main goal is to integrate multimodal clues to identify human emotional states. Current works generally assume accurate labels for benchmark datasets and focus on developing more effective architectures. However, emotion annotation relies on subjective judgment. To obtain more reliable labels, existing datasets usually restrict the label space to some basic categories, then hire plenty of annotators and use majority voting to select the most likely label. However, this process may result in some correct but non-candidate or non-majority labels being ignored. To ensure reliability without ignoring subtle emotions, we propose a new task called ``Explainable Multimodal Emotion Recognition (EMER)''. Unlike traditional emotion recognition, EMER takes a step further by providing explanations for these predictions. Through this task, we can extract relatively reliable labels since each label has a certain basis. Meanwhile, we borrow large language models (LLMs) to disambiguate unimodal clues and generate more complete multimodal explanations. From them, we can extract richer emotions in an open-vocabulary manner. This paper presents our initial attempt at this task, including introducing a new dataset, establishing baselines, and defining evaluation metrics. In addition, EMER can serve as a benchmark task to evaluate the audio-video-text understanding performance of multimodal LLMs.
研究の動機と目的
- 主観的な感情によるマルチモーダル感情認識のラベル曖昧性へ対応する。
- 予測された感情だけでなく、説明を提供する EMER を導入する。
- 初期の EMER データセットと評価指標を用いたベースラインモデルを作成する。
- EMER に取り組むためのマルチモーダルLLM AffectGPT を提案する。
- マルチモーダルLLM における音声-映像-テキスト理解の評価の土台を提供する。
提案手法
- EMER を感情予測の背後に妥当な推論が必要なタスクとして定義する。
- MER2023 から手掛かりと感情アノテーションを含む初期の EMER データセットを構築する。
- VideoChat、Video-LLaMA、PandaGPT、Valley など、映像入力が可能なマルチモーダルLLMを用いたベースラインを開発する。
- プロンプトに字幕と音声を組み込み、マルチモーダル推論を評価する。
- 手掛かりと感情の重複、推論の完結性を自動評価(ChatGPT ベース)と人間評価で評価する。
- EMER データで訓練された感情推論を強化するマルチモーダルLLM AffectGPT を導入する。
実験結果
リサーチクエスチョン
- RQ1EMER は説明可能な推論を通じて感情ラベルの注釈品質と信頼性を確実に向上させられるか。
- RQ2視覚・聴覚・テキストのモダリティ全体で、現行のマルチモーダルLLM は説明可能な感情推論をどれだけうまく行えるか。
- RQ3EMER データでの指示学習が、LLM の感情推論とマルチモーダル理解を向上させるか。
- RQ4EMER タスクに対して専用のマルチモーダル感情モデル(AffectGPT)の追加価値は何か。
主な発見
- 現行のマルチモーダルLLM は感情推論で苦戦しており、手掛かりとラベル重複の点でグラウンドトゥルースから大きなギャップを示す。
- AffectGPT は手掛かりとラベル重複および人間評価の両方でベースラインの中で最も高いスコアを達成する。
- 複数のベースラインのアンサンブルは、単一モデルよりも感情推論性能を向上させる可能性がある。
- 長い動画は感情関連の記述が豊かになり、モダリティの完結性も高くなる傾向がある。
- 映像中心のベースラインは音声手掛かりを見落としがちで、より豊かな音声指示データセットの必要性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。