[論文レビュー] Revisiting Disentanglement and Fusion on Modality and Context in Conversational Multimodal Emotion Recognition
本論文は、DF-ERCという4層フレームワークを提案し、多模態と文脈特徴を共同で分離し、その後、貢献度認識と文脈リフュージョン機構を用いて結合する。これにより、MELDとIEMOCAPで最先端のMM-ERC性能を達成する。
It has been a hot research topic to enable machines to understand human emotions in multimodal contexts under dialogue scenarios, which is tasked with multimodal emotion analysis in conversation (MM-ERC). MM-ERC has received consistent attention in recent years, where a diverse range of methods has been proposed for securing better task performance. Most existing works treat MM-ERC as a standard multimodal classification problem and perform multimodal feature disentanglement and fusion for maximizing feature utility. Yet after revisiting the characteristic of MM-ERC, we argue that both the feature multimodality and conversational contextualization should be properly modeled simultaneously during the feature disentanglement and fusion steps. In this work, we target further pushing the task performance by taking full consideration of the above insights. On the one hand, during feature disentanglement, based on the contrastive learning technique, we devise a Dual-level Disentanglement Mechanism (DDM) to decouple the features into both the modality space and utterance space. On the other hand, during the feature fusion stage, we propose a Contribution-aware Fusion Mechanism (CFM) and a Context Refusion Mechanism (CRM) for multimodal and context integration, respectively. They together schedule the proper integrations of multimodal and context features. Specifically, CFM explicitly manages the multimodal feature contributions dynamically, while CRM flexibly coordinates the introduction of dialogue contexts. On two public MM-ERC datasets, our system achieves new state-of-the-art performance consistently. Further analyses demonstrate that all our proposed mechanisms greatly facilitate the MM-ERC task by making full use of the multimodal and context features adaptively. Note that our proposed methods have the great potential to facilitate a broader range of other conversational multimodal tasks.
研究の動機と目的
- 特徴の分離と統合の間に、MM-ERCにおいて多模性と対話文脈の双方を同時にモデリングする動機づけ。
- モダリティ情報と発話情報を分離する、デュアルレベルの分離機構を開発する。
- 適応的に多模態と文脈特徴を統合するための貢献度認識融合機構と文脈リフュージョン機構を設計する。
- MELDとIEMOCAPで最先端の性能を実証し、各構成要素の寄与を分析する。
提案手法
- 対話全体を RoBERTa ベースの言語モデリングでテキストを符号化する。
- FER+で事前学習された OpenSmile と DenseNet を用いて音声および映像特徴を抽出する。
- Dual-level Disentanglement Mechanism (DDM) を適用してモダリティレベルと発話レベルの対照学習を行い、原始特徴と分離特徴を結合する。
- Contribution-aware Fusion Mechanism (CFM) を用いて、真の分類確率に基づいてモダリティを動的に重み付けする。
- プロトタイプベースのアライメントを用いた Context Refusion Mechanism (CRM) を適用し、対話コンテキストをどれだけ組み込むかを決定する。文脈融合には Bi-LSTM を用いる。
- 複合損失で学習する:対照損失(DDM)、TCPガイダンス付き融合損失(CFM)、文脈アライメント損失(CRM)、プロトタイプアライメント損失、および標準の感情予測損失。
実験結果
リサーチクエスチョン
- RQ1MM-ERCは、モダリティと発話の両方の次元に沿って特徴を分離することでどのような恩恠を受けるか。
- RQ2動的で貢献度認識型の融合は、固定融合方式と比較して多模態統合を改善できるか。
- RQ3プロトタイプアライメントベースのCRMによる文脈融合を取り入れることで、発話レベルの感情予測が改善されるか。
- RQ4提案された機構は、一般的な MM-ERC ベンチマーク(MELD、IEMOCAP)で有効か。
主な発見
- DF-ERCは複数の指標でMELDとIEMOCAPにおいて最先端の性能を達成する。
- モダリティレベルと発話レベルの分離(DDM)の両方が、アブレーション variant と比較して結果を大幅に改善する。
- 貢献度認識融合(CFM)と文脈リフュージョン(CRM)は実質的な向上を提供し、これらを削除すると性能が低下する。
- CRMの文脈認識重み付けは、静的な全文脈またはゼロ文脈のベースラインより優れており、適応的な文脈統合の価値を示している。
- テキストは依然として強力なモダリティであるが、提案された融合戦略で音声および映像を追加すると、単一モダリティのベースラインを上回る顕著な向上を得られる。
- アブレーション分析は、各要素(DDM、CFM、CRM)およびモダリティ貢献度の調整の重要性を確認する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。