Skip to main content
QUICK REVIEW

[논문 리뷰] Found in Translation: Learning Robust Joint Representations by Cyclic Translations Between Modalities

Hai Pham, Paul Pu Liang|arXiv (Cornell University)|2018. 12. 19.
Sentiment Analysis and Opinion Mining참고 문헌 60인용 수 38
한 줄 요약

이 논문은 언어, 시각, 청각 모odalities 간 순환적인 시퀀스-투-시퀀스 번역을 통해 강건한 공동 다중모态 표현을 학습하는 Multimodal Cyclic Translation Networks (MCTN)를 제안한다. 짝지어진 다중모态 데이터로 훈련하고 순환 일致성(consistency)을 강제함으로써, 테스트 시에는 소스 모달리티만을 사용하여 감성 예측을 수행할 수 있으며, CMU-MOSI, ICT-MMMO, YouTube 데이터셋에서 최신 기술(SOTA) 성능을 달성하면서도 부재하거나 노이즈가 있는 모달리티에 대해도 강건함을 유지한다.

ABSTRACT

Multimodal sentiment analysis is a core research area that studies speaker sentiment expressed from the language, visual, and acoustic modalities. The central challenge in multimodal learning involves inferring joint representations that can process and relate information from these modalities. However, existing work learns joint representations by requiring all modalities as input and as a result, the learned representations may be sensitive to noisy or missing modalities at test time. With the recent success of sequence to sequence (Seq2Seq) models in machine translation, there is an opportunity to explore new ways of learning joint representations that may not require all input modalities at test time. In this paper, we propose a method to learn robust joint representations by translating between modalities. Our method is based on the key insight that translation from a source to a target modality provides a method of learning joint representations using only the source modality as input. We augment modality translations with a cycle consistency loss to ensure that our joint representations retain maximal information from all modalities. Once our translation model is trained with paired multimodal data, we only need data from the source modality at test time for final sentiment prediction. This ensures that our model remains robust from perturbations or missing information in the other modalities. We train our model with a coupled translation-prediction objective and it achieves new state-of-the-art results on multimodal sentiment analysis datasets: CMU-MOSI, ICT-MMMO, and YouTube. Additional experiments show that our model learns increasingly discriminative joint representations with more input modalities while maintaining robustness to missing or perturbed modalities.

연구 동기 및 목표

  • 테스트 시 입력 모달리티가 노이즈가 있거나 부재할 경우에도 효과적인 강건한 공동 다중모달 표현을 학습하는 문제를 해결한다.
  • 기존 방법들이 추론 시 모든 모달리티가 필요하기 때문에 데이터 변동에 민감한 점을 극복한다.
  • 기계 번역 분야에서의 시퀀스-투-시퀀스 모델 성공 사례를 활용하여 교차 모달 간 번역을 통한 공동 표현 학습을 시도한다.
  • 순환 일치성을 강제하여 번역 과정을 통해 모든 모달리티에서 최대한의 정보를 유지함으로써 공동 표현이 최대한의 정보를 담도록 보장한다.
  • 순환 번역 손실과 감성 예측 손실을 결합한 커플링된 손실을 통해 엔드 투 엔드 훈련을 수행함으로써 태스크 특화 분류 성능을 향상시키면서도 강건성을 유지한다.

제안 방법

  • 소스 모달리티와 타겟 모달리티 간 이방향 시퀀스-투-시퀀스 번역을 통해 공동 표현을 학습하는 다중모달 순환 번역 네트워크(MCTN)를 제안한다.
  • 앞서 번역(소스 → 타겟)과 뒤이어 번역(예측된 타겟 → 소스)을 훈련시켜 순환 일치성을 강제함으로써 대칭성과 정보 유지성을 확보한다.
  • 앞서 번역과 뒤이어 번역 모두에 공통된 Seq2Seq 아키텍처를 사용하여 과적합을 줄이고 통합된 공동 표현을 장려한다.
  • 소스 모달리티와 하나의 타겟 모달리티 간 번역을 먼저 수행하고, 중간 표현에서 두 번째 타겟 모달리티로의 번역을 수행하는 두 단계 번역을 수행하는 계층적 MCTN 버전을 도입한다.
  • 순환 번역 손실과 감성 예측 손실을 결합한 커플링된 손실을 통해 모델을 엔드 투 엔드로 훈련시켜 태스크 특화 분류 성능을 향상시킨다.
  • 사전 훈련 후에 소스 모달리티만을 사용하여 추론이 가능하게 하여, 테스트 시 타겟 모달리티가 누락되거나 손상된 경우에도 모델의 강건성을 확보한다.

실험 결과

연구 질문

  • RQ1모달리티 간 순환 번역이 공동 다중모달 표현의 강건성과 분류 성능 향상에 어떻게 기여하는가?
  • RQ2순환 프레임워크에서 앞서 번역과 뒤이어 번역에 대해 단일 공유 Seq2Seq 모델을 사용하는 것과 두 개 별도 모델을 사용하는 것의 영향은 무엇인가?
  • RQ3소스 모달리티와 타겟 모달리티의 선택이 공동 표현 학습 성능에 미치는 영향은 어떠한가?
  • RQ4삼중모달 환경에서 소스에서 타겟 모달리티로 직접 번역하는 것에 비해 계층적 두 단계 번역의 이점은 무엇인가?
  • RQ5훈련 시 입력 모달리티의 수를 늘릴수록 학습된 공동 표현의 분류 성능 향상 정도는 어느 정도인가?

주요 결과

  • 순환 번역을 사용하는 모델들(예: 순환 일치성 보장 MCTN)은 이중모달 및 삼중모달 설정 모두에서 모든 베이스라인을 능가하며, 특히 삼중모달 케이스에서 가장 큰 성능 격차를 보였다.
  • 두 단계 순환 번역을 수행하는 계층적 MCTN(그림 4(e))는 연결된 모달리티에서 직접 번역하는 것(그림 4(h))보다 뛰어난 성능을 보였으며, 이는 반복적 표현 학습의 이점이 있음을 시사한다.
  • 앞서 번역과 뒤이어 번역에 대해 단일 공유 Seq2Seq 모델을 사용할 경우, 별도의 두 모델을 사용하는 것보다 더 높은 성능을 달성했으며, 이는 과적합 감소와 더 나은 파라미터 공유의 영향일 것이다.
  • 언어 모달리티가 항상 공동 표현에 가장 큰 기여를 하며, 언어 모달리티를 소스로 사용하는 모델이 특히 시각 모달리티와 조합했을 때 가장 높은 성능을 기록했다.
  • 훈련 시 더 많은 입력 모달리티를 사용할수록 학습된 공동 표현이 점점 더 분류 성능이 높아지며, 동시에 테스트 시 부재하거나 손상된 모달리티에 대해 강건함을 유지한다.
  • MCTN는 CMU-MOSI, ICT-MMMO, YouTube 다중모달 감성 분석 데이터셋에서 새로운 최신 기술(SOTA) 성능을 달성하여 제안된 프레임워크의 효과성을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.