Skip to main content
QUICK REVIEW

[論文レビュー] Learning Relationships between Text, Audio, and Video via Deep Canonical Correlation for Multimodal Language Analysis

Zhongkai Sun, Prathusha K Sarma|arXiv (Cornell University)|Nov 13, 2019
Sentiment Analysis and Opinion Mining参考文献 27被引用数 26
ひとこと要約

本論文は、深層畳み込み自己符号化器(DCCA)を用いて、テキストベースの音声およびテキストベースのビデオ特徴間の非線形相関を学習することで、マルチモーダルセンチメントおよびエモーション分析を向上させる、インタラクション・カノニカルコリレーションネットワーク(ICCN)を提案する。外積相互作用とCCA損失を活用することで、ICCNはCMU-MOSI、CMU-MOSEI、IEMOCAPの各ベンチマークでベースラインを上回り、テキスト-音声およびテキスト-ビデオ間の隠れた関係をモデル化することで、単純な連結やコサイン類似度を超えたマルチモーダル表現学習が可能であることを示している。

ABSTRACT

Multimodal language analysis often considers relationships between features based on text and those based on acoustical and visual properties. Text features typically outperform non-text features in sentiment analysis or emotion recognition tasks in part because the text features are derived from advanced language models or word embeddings trained on massive data sources while audio and video features are human-engineered and comparatively underdeveloped. Given that the text, audio, and video are describing the same utterance in different ways, we hypothesize that the multimodal sentiment analysis and emotion recognition can be improved by learning (hidden) correlations between features extracted from the outer product of text and audio (we call this text-based audio) and analogous text-based video. This paper proposes a novel model, the Interaction Canonical Correlation Network (ICCN), to learn such multimodal embeddings. ICCN learns correlations between all three modes via deep canonical correlation analysis (DCCA) and the proposed embeddings are then tested on several benchmark datasets and against other state-of-the-art multimodal embedding algorithms. Empirical results and ablation studies confirm the effectiveness of ICCN in capturing useful information from all three views.

研究の動機と目的

  • マルチモーダルセンチメントおよびエモーション認識におけるテキスト以外のモダリティとテキストの間の性能の不均衡を是正すること。
  • 共有されたテキスト的文脈に条件づけられた非テキストモダリティ間の隠れた相関を捉えることで、マルチモーダル表現学習を向上させること。
  • 線形CCAや単純な特徴連結の制限を、深層ニューラルネットワークと外積相互作用を用いることで克服すること。
  • テキストベースの音声およびテキストベースのビデオ相互作用をモデル化することで、下流分類性能が向上することを検証すること。
  • コサイン類似度と比較して、カノニカルコリレーションがクロスモダリティ同期化の目的関数として優れていることを示すこと。

提案手法

  • モデルは、テキストと音声間の相互作用およびテキストとビデオ間の相互作用をそれぞれ表す外積行列 $T \otimes A$ および $T \otimes V$ を構築する。
  • 2つの畳み込みニューラルネットワーク(CNN)が、外積行列を処理してテキストベースの音声およびテキストベースのビデオの高次特徴を抽出する。
  • 深層カノニカルコリレーション分析(DCCA)層が、共有投影空間を通じて2つのCNN出力間の最大相関を強制する。
  • CCA損失関数がエンドツーエンドで最適化され、CNNおよび投影層が同時に学習され、カノニカル相関を最大化する。
  • 最終的なマルチモーダル埋め込みは、元のテキスト埋め込みとDCCA処理済みのテキストベースの音声およびビデオ特徴を連結することで形成される。
  • モデルは、センチメントおよびエモーション分類のための標準指標を用いて、CMU-MOSI、CMU-MOSEI、IEMOCAPデータセット上で訓練および評価される。

実験結果

リサーチクエスチョン

  • RQ1テキストベースの音声およびテキストベースのビデオ間の隠れた相関を学習することで、マルチモーダルセンチメントおよびエモーション認識が向上するか?
  • RQ2テキストと非テキストモダリティ間の外積相互作用を用いることで、直接連結するのと比較して特徴表現が向上するか?
  • RQ3この文脈において、深層カノニカルコリレーション分析(DCCA)はコサイン類似度よりもマルチモーダル特徴の同期化に有効であるか?
  • RQ4ICCNモデルは、性能およびロバストネスの観点から、最先端のマルチモーダル統合手法と比較してどうなるか?
  • RQ5各構成要素(例:外積、CCA損失、テキストの条件付け)が最終的な性能に果たす寄与度は何か?

主な発見

  • ICCNは、CMU-MOSI、CMU-MOSEI、IEMOCAPで最先端の性能を達成し、単モダリティベースラインおよびマルチモーダル統合手法を上回っている。
  • CCA損失を用いることで、コサイン類似度損失とは異なり、テキストベースの音声およびビデオ特徴間のカノニカル相関が顕著に高くなる。
  • アブレーションスタディにより、外積とテキストの組み合わせが不可欠であることが確認され、それを除去するとDCCAを用いても性能が低下する。
  • カノニカル相関を最大化してもコサイン類似度が増加するとは限らず、逆も同様であるため、CCAは重複しない別種の関係を捉えていることが証明された。
  • 同じモデルでCCA損失を使用した場合、コサイン類似度損失を使用した場合よりも下流の分類性能が優れているため、目的関数としての有効性が裏付けられた。
  • ICCNは、他のCCAベースの手法やTFN、LMF、MFMなどのニューラルネットワークベースの最先端モデルを上回り、そのロバストネスおよび一般化能力を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。