Skip to main content
QUICK REVIEW

[論文レビュー] MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis

Devamanyu Hazarika, Roger Zimmermann|arXiv (Cornell University)|May 7, 2020
Humor Studies and Applications参考文献 51被引用数 56
ひとこと要約

MISAは各発話に対してモダリティ不変表現とモダリティ特異表現を学習し、Transformerベースのフュージョンを用いてマルチモーダル感情分析とユーモア検出を改善します。MOSI、MOSEI、および UR_FUNNY で最先端の結果を達成します。

ABSTRACT

Multimodal Sentiment Analysis is an active area of research that leverages multimodal signals for affective understanding of user-generated videos. The predominant approach, addressing this task, has been to develop sophisticated fusion techniques. However, the heterogeneous nature of the signals creates distributional modality gaps that pose significant challenges. In this paper, we aim to learn effective modality representations to aid the process of fusion. We propose a novel framework, MISA, which projects each modality to two distinct subspaces. The first subspace is modality-invariant, where the representations across modalities learn their commonalities and reduce the modality gap. The second subspace is modality-specific, which is private to each modality and captures their characteristic features. These representations provide a holistic view of the multimodal data, which is used for fusion that leads to task predictions. Our experiments on popular sentiment analysis benchmarks, MOSI and MOSEI, demonstrate significant gains over state-of-the-art models. We also consider the task of Multimodal Humor Detection and experiment on the recently proposed UR_FUNNY dataset. Here too, our model fares better than strong baselines, establishing MISA as a useful multimodal framework.

研究の動機と目的

  • 融合前のより良い表現を学習することで、マルチモーダル感情分析を動機づけ、モダリティ間のギャップに対処する。
  • モダリティごとに2つのサブスペース表現を提案する:不変(共有)と特異(プライベート)。
  • アライメントを促す損失(不変空間)、直交性(冗長性を減らす)、そして忠実な再構成を促す損失を用いる。
  • 不変表現と特異表現の両方を用いることが、ベンチマークでのフュージョンと予測性能を改善することを示す。

提案手法

  • 各モダリティの発話を2つのサブスペースに投影する:モダリティ不変(モダリティ間で共有)とモダリティ特異(各モダリティにプライベート)。
  • 不変特徴を共有エンコーダで、モダリティ特異特徴を各モダリティのエンコーダでエンコードする。
  • Central Moment Discrepancy (CMD) を分布類似性損失として用い、モダリティ間の不変表現を整列させる。
  • 不変表現と特異表現の間(およびモダリティ間)で正交性ベースの差損失を用いて非冗長性を強制する。
  • 組み合わされた不変と特異表現から入力モダリティ特徴を再構成して、単純解を防ぐ。
  • 6つの表現(l/c, v/c, a/c, l/p, v/p, a/p)を自己注意型Transformerで融合し、結合して予測ヘッドへ渡す。

実験結果

リサーチクエスチョン

  • RQ1モダリティ不変表現とモダリティ特異表現を学習することは、感情分析のマルチモーダルフュージョンの有効性を高めるか?
  • RQ2この設定でCMDベースの分布整列は、敵対的手法や他の分布整列手法より有利になるか?
  • RQ3モダリティ特異特徴は、不変特徴を超えた感情予測に有意義な補完情報を提供するか?

主な発見

  • MISAはMOSIおよびMOSEIにおいて、強力なベースラインと比較して回帰・分類指標の最先端性能を達成する。
  • MISAはUR_FUNNYのマルチモーダルユーモア検出も改善し、文脈ベースのSOTAを上回る。いくつかの設定では主にGloVe言語特徴を使用しているにもかかわらず。
  • BERTベースの言語特徴を使用すると、GloVeよりもさらにMISAの性能が向上し、MISAは両方のMOSIとMOSEIでBERTベースのSOTA ICCNを上回る。
  • アブレーションにより、不変成分または特異成分を取り除くと性能が低下し、CMD類似性や正交性損失を削除しても同様に結果が低下する。
  • データセットをまたいで、提案表現を用いた発話レベルのMISAモデルはより複雑なフュージョン手法を凌ぎ、フュージョン前の表現学習の価値を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。