Skip to main content
QUICK REVIEW

[논문 리뷰] Multimodal Generative Models for Scalable Weakly-Supervised Learning

Mike Wu, Noah D. Goodman|arXiv (Cornell University)|2018. 02. 14.
Multimodal Machine Learning Applications참고 문헌 22인용 수 150
한 줄 요약

이 논문은 곱의 전문가(Product-of-Experts) 추론 네트워크와 부분 표본화(sub-sampled) 학습을 이용해 MVAE를 제시한다. 이는 누락 데이터가 있는 임의의 모달리티 간의 결합 분포를 학습하고, 파라미터 수를 줄이면서도 최첨단 성능을 달성하며, 약한 지도 학습을 가능하게 한다.

ABSTRACT

Multiple modalities often co-occur when describing natural phenomena. Learning a joint representation of these modalities should yield deeper and more useful representations. Previous generative approaches to multi-modal input either do not learn a joint distribution or require additional computation to handle missing data. Here, we introduce a multimodal variational autoencoder (MVAE) that uses a product-of-experts inference network and a sub-sampled training paradigm to solve the multi-modal inference problem. Notably, our model shares parameters to efficiently learn under any combination of missing modalities. We apply the MVAE on four datasets and match state-of-the-art performance using many fewer parameters. In addition, we show that the MVAE is directly applicable to weakly-supervised learning, and is robust to incomplete supervision. We then consider two case studies, one of learning image transformations---edge detection, colorization, segmentation---as a set of modalities, followed by one of machine translation between two languages. We find appealing results across this range of tasks.

연구 동기 및 목표

  • 다중 공존 모달리티가 있을 때 공동 모달리티 표현 학습의 필요성 동기화.
  • 누락 데이터가 있는 여러 모달리티에 확장 가능한 효율적 추론 체계 개발.
  • 단일 모달 데이터 정보를 이용해 공동 분포를 inform 하는 약한 지도 학습 가능성 확보.
  • 비전-언어 및 변환 사례를 포함한 다양한 데이터셋과 사례 연구에서 접근법 시연.

제안 방법

  • z라는 공동 잠재 변수와 z에 대해 조건부로 독립적인 모달리티를 가지는 다모달 VAЕ 형식으로 구성한다.
  • 전제 포스터리어를 포함한 Uni-modal 포스터리어를 사용하여 q(z|X)라는 Product-of-Experts(Postierior)를 도출하고, 기대 모달리티의 임의 부분 집합을 처리하기 위해 prior expert를 사용한다.
  • 전제 및 uni-modal 포스터리어가 가우시안일 때 PoE에 대한 가우시안 닫힌 형태를 제공한다.
  • 완전 모달리티, 단일 모달리티, 그리고 다중 모달 부분집합의 임의 추출을 포함한 부분 표본 학습 목표를 도입해 누락 데이터를 관리하고 학습 효율을 높이는 ELBO 항을 최적화한다.
  • 同じ uni-modal 인코더를 어떤 모달리티가 존재하든 재사용할 수 있도록 모달리티 조합 간 매개변수를 공유한다.
  • 부분적으로 페어링된 데이터에서 학습하고 이를 약한 지도 학습 작업에 활용해 불완전한 지도하에서도 강건성을 보여준다.

실험 결과

연구 질문

  • RQ1MVAE가 단일 공유 추론 구조를 사용하여 누락 데이터가 있는 다중 모달리티 간 일관된 공동 분포를 학습할 수 있는가?
  • RQ2Product-of-Experts 추론이 다른 다중 모달 추론 체계에 비해 안정성과 성능을 개선하는가?
  • RQ3전체 예시의 일부만 다중 모달일 때 MVAE가 약한 지도하에서 어떻게 성능을 보이는가?
  • RQ4MVAE가 많은 모달리티로 확장되어도 유용한 공동 표현을 다양한 작업에서 학습할 수 있는가?

주요 결과

  • MVAE는 MNIST, 이진화된 MNIST, MultiMNIST, FashionMNIST, CelebA에서 파라미터 수를 줄이면서도 최첨단 성능에 일치한다.
  • 18개 이상의 모달리티(CelebA의 속성들을 개별 모달리티로 간주)에서 공유된 통계적 강점으로 이점을 얻는다.
  • MVAE는 색상화, 에지 검출, 세분화와 같은 변환을 모달리티로 다루어 공동 다중 모달 변환을 효과적으로 학습한다.
  • 약한 지도하에서 MVAE는 기준선보다 우수하며 중간 데이터 구간에서는 완전한 지도 모델과도 경쟁력을 유지한다.
  • MVAE는 모달리티 누락에 강건하고 제한된 페어링 데이터를 이용한 언어 간 변환 학습도 지원한다(약한 지도 번역).
  • 분산 분석에서 MVAE는 이전의 공동 모달 모델들보다 중요도 가중치 분산이 더 낮아 추론 네트워크가 더 강하다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.