Skip to main content
QUICK REVIEW

[논문 리뷰] Factorized Multimodal Transformer for Multimodal Sequential Learning

Amir Zadeh, Chengfeng Mao|arXiv (Cornell University)|2019. 11. 22.
Speech and dialogue systems참고 문헌 47인용 수 37
한 줄 요약

FMT는 비동기 멀티모달 시퀀스에서 내모달 및 인터모달 다이내믹스를 모델링하기 위한 Factorized Multimodal Self-attention 메커니즘을 도입하여 CMU-MOSI, IEMOCAP, 및 POM 데이터셋에서 최첨단 결과를 달성한다.

ABSTRACT

The complex world around us is inherently multimodal and sequential (continuous). Information is scattered across different modalities and requires multiple continuous sensors to be captured. As machine learning leaps towards better generalization to real world, multimodal sequential learning becomes a fundamental research area. Arguably, modeling arbitrarily distributed spatio-temporal dynamics within and across modalities is the biggest challenge in this research area. In this paper, we present a new transformer model, called the Factorized Multimodal Transformer (FMT) for multimodal sequential learning. FMT inherently models the intramodal and intermodal (involving two or more modalities) dynamics within its multimodal input in a factorized manner. The proposed factorization allows for increasing the number of self-attentions to better model the multimodal phenomena at hand; without encountering difficulties during training (e.g. overfitting) even on relatively low-resource setups. All the attention mechanisms within FMT have a full time-domain receptive field which allows them to asynchronously capture long-range multimodal dynamics. In our experiments we focus on datasets that contain the three commonly studied modalities of language, vision and acoustic. We perform a wide range of experiments, spanning across 3 well-studied datasets and 21 distinct labels. FMT shows superior performance over previously proposed models, setting new state of the art in the studied datasets.

연구 동기 및 목표

  • 언어, 시각, 오디오 모달리티 간 비동기 시공간 상호작용의 모델링 문제를 동기부여하고 해결한다.
  • Factorized Multimodal Self-attention (FMS)와 함께 단일 트랜스포머 아키텍처(FMT)를 제안하여 단일모달, 이모달, 삼모달 상호작용을 포착한다.
  • 제한된 자원에서 과적합을 피하면서 전체 시간 도메인 수용장을 갖춘 장기 멀티모달 다이내믹스의 확장 가능한 모델링을 가능하게 한다.

제안 방법

  • 각 모달리티를 단일 모달 임베딩으로 임베딩하고 위치 정보를 추가한다.
  • 다중 Factorized Multimodal Self-attentions(FMS)을 포함하는 Multimodal Transformer Layers(MTL)를 사용하여 인트라모달 및 인터모달 다이내믹스를 포착한다.
  • 각 FMS 내에서 L, V, A, LV, LA, VA, 및 LVA 요인에 해당하는 일곱 개의 어텐션을 전체 시퀀스 길이에 대해 계산한다.
  • 고차원인 FMS 출력을 관리 가능한 표현으로 축소하기 위한 1D 합성 요약 네트워크(S1 및 S2)를 적용한다.
  • 최종 MTL 출력을 GRU 기반 예측기로 전달하여 타임스탬프 감독 및 최종 시퀀스 레이블링을 수행한다.
  • CMU-MOSI, IEMOCAP, 및 POM에서 표준 멀티모달 지표를 사용해 FMT를 강력한 기준선들과 비교한다.

실험 결과

연구 질문

  • RQ1단일 트랜스포머 내의 인자화 어텐션 메커니즘이 비동기 멀티모달 시퀀스에서 단일모달, 이모달, 삼모달 상호작용을 효과적으로 모델링할 수 있는가?
  • RQ2컴팩트하고 완전한 시간 도메인 주의 아키텍처가 감정 분석, 정서 인식 및 성격 특성 인식에서 이전의 멀티모달 시퀀스 모델보다 우수한가?
  • RQ3MTL 내 FMS 유닛의 수를 변화시키면 성능 및 학습 효율성에 어떤 영향이 있는가?
  • RQ4단일모달/이모달/삼모달 요인을 제거하는 것이 전체 성능에 미치는 영향은 무엇인가?

주요 결과

  • FMT는 멀티모달 감정 분석(CMU-MOSI)에서 베이스라인보다 우수한 성능을 달성한다(Table 1).
  • FMT는 IEMOCAP에서 디스크리트 감정 중 Happy를 제외한 나머지에서 베이스라인을 능가한다(Table 2).
  • FMT는 POM에서 16개 특성에 대해 베이스라인을 능가한다(Table 3).
  • Abalation 연구에서 모든 요인 유형(UNI, BI, TRI) 및 요약 구성요소가 최적 성능에 필요하다고 나타났다(Table 4).
  • MTL 내 FMS 유닛 수를 최대 6까지 증가시키면 실험에서 최고 성능을 달성한다(Table 5).
  • FMT는 MulT보다 더 적은 총 어텐션을 사용하면서 동일한 작업에서 더 나은 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.