QUICK REVIEW

[논문 리뷰] Learning Relationships between Text, Audio, and Video via Deep Canonical Correlation for Multimodal Language Analysis

Zhongkai Sun, Prathusha K Sarma|arXiv (Cornell University)|2019. 11. 13.

Sentiment Analysis and Opinion Mining참고 문헌 27인용 수 26

한 줄 요약

이 논문은 깊이 있는 캐논리컬 상관계수 분석(DCCA)을 사용하여 텍스트 기반의 음성 및 텍스트 기반의 비디오 특징 간의 비선형 상관관계를 학습함으로써 다중모odal 감성 및 정서 분석을 향상시키는 상호작용 캐논리컬 상관계수 네트워크(ICCN)를 제안한다. 외적 곱 상호작용과 CCA 손실을 활용함으로써 ICCN은 CMU-MOSI, CMU-MOSEI, IEMOCAP에서 기존의 기준 모델들을 능가하며, 텍스트-음성 및 텍스트-비디오 간의 은닉된 관계를 모델링함으로써 단순 연결 또는余弦 유사도보다 더 나은 다중모달 표현 학습이 가능함을 보여준다.

ABSTRACT

Multimodal language analysis often considers relationships between features based on text and those based on acoustical and visual properties. Text features typically outperform non-text features in sentiment analysis or emotion recognition tasks in part because the text features are derived from advanced language models or word embeddings trained on massive data sources while audio and video features are human-engineered and comparatively underdeveloped. Given that the text, audio, and video are describing the same utterance in different ways, we hypothesize that the multimodal sentiment analysis and emotion recognition can be improved by learning (hidden) correlations between features extracted from the outer product of text and audio (we call this text-based audio) and analogous text-based video. This paper proposes a novel model, the Interaction Canonical Correlation Network (ICCN), to learn such multimodal embeddings. ICCN learns correlations between all three modes via deep canonical correlation analysis (DCCA) and the proposed embeddings are then tested on several benchmark datasets and against other state-of-the-art multimodal embedding algorithms. Empirical results and ablation studies confirm the effectiveness of ICCN in capturing useful information from all three views.

연구 동기 및 목표

다중모달 감성 및 정서 인식에서 텍스트 모odal과 비텍스트 모달 간의 성능 불균형을 해결하기 위해.
공유된 텍스트적 맥락에 조건화된 비텍스트 모달 간의 은닉된 상관관계를 포착함으로써 다중모달 표현 학습을 향상시키기 위해.
선형 CCA와 단순 특징 연결의 한계를 극복하기 위해 딥 네트워크와 외적 곱 상호작용을 사용하기 위해.
텍스트 기반의 음성 및 텍스트 기반의 비디오 상호작용을 모델링함으로써 최종 분류 성능 향상이 이루어지는지 검증하기 위해.
교차모달 정렬을 위한 목적함수로 캐논리컬 상관계수(CCA)가 여론 유사도보다 우수함을 입증하기 위해.

제안 방법

모델은 텍스트와 음성 간의 상호작용을 나타내는 외적 곱 행렬 $T \otimes A$와 텍스트와 비디오 간의 상호작용을 나타내는 $T \otimes V$를 구성한다.
두 개의 합성곱 신경망(CNN)이 각각 외적 곱 행렬을 처리하여 텍스트 기반 음성 및 텍스트 기반 비디오의 고차원 특징을 추출한다.
딥 캐논리컬 상관계수(DCCA) 레이어가 공유 투영 공간을 통해 두 CNN 출력 간의 최대 상관관계를 강제한다.
CCA 손실 함수는 엔드 투 엔드로 최적화되어, CNN과 투영 레이어를 동시에 훈련시켜 캐논리컬 상관계수를 최대화한다.
최종 다중모달 임베딩은 원본 텍스트 임베딩과 DCCA 처리된 텍스트 기반 음성 및 비디오 특징을 연결하여 형성된다.
모델은 표준 감성 및 정서 분류 메트릭을 사용하여 CMU-MOSI, CMU-MOSEI, IEMOCAP 데이터셋에서 훈련 및 평가된다.

실험 결과

연구 질문

RQ1텍스트 기반의 음성과 텍스트 기반의 비디오 간의 은닉된 상관관계를 학습하는 것이 다중모달 감성 및 정서 인식을 향상시킬 수 있는가?
RQ2직접 연결보다 텍스트와 비텍스트 모달 간의 외적 곱 상호작용을 사용함으로써 특징 표현이 향상되는가?
RQ3이 맥락에서 깊이 있는 캐논리컬 상관계수(DCCA)가 여론 유사도보다 다중모달 특징 정렬에 더 효과적인가?
RQ4성능과 강건성 측면에서 ICCN 모델은 최신 기술의 다중모달 융합 방법들과 비교해 어떻게 성과를 내는가?
RQ5각 구성 요소(예: 외적 곱, CCA 손실, 텍스트 조건화)가 최종 성능에 기여하는 정도는 어떠한가?

주요 결과

ICCN은 CMU-MOSI, CMU-MOSEI, IEMOCAP에서 최신 기술(SOTA) 성능을 달성하여 단일모달 기준 모델과 다중모달 융합 방법 모두를 능가한다.
CCA 손실을 사용할 경우 여론 유사도 손실과 비교해 텍스트 기반 음성 및 비디오 특징 간의 캐논리컬 상관계수가 유의미하게 높아지며, 후자는 동일한 목표를 최대화하지 못한다.
제거 실험 결과 외적 곱과 텍스트의 조합이 필수적임을 확인하였으며, 이는 DCCA를 사용하더라도 제거 시 성능 저하가 발생한다.
캐논리컬 상관계수를 최대화하는 것은 여론 유사도를 증가시키지 않으며, 그 반대도 마찬가지이므로 CCA가 중복되지 않는 고유한 관계를 포착함을 입증한다.
동일한 모델에서 CCA 손실을 사용할 경우 여론 유사도 손실을 사용한 경우보다 최종 분류 성능이 뛰어나며, 이는 선택한 목적함수의 효과성을 검증한다.
ICCN은 다른 CCA 기반 방법들과 TFN, LMF, MFM와 같은 신경망 기반 최신 기술 모델들을 능가하며, 강건성과 일반화 능력이 뛰어남을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.