QUICK REVIEW

[논문 리뷰] Multimodal Generative Models for Scalable Weakly-Supervised Learning

Mike Wu, Noah D. Goodman|arXiv (Cornell University)|2018. 02. 14.

Multimodal Machine Learning Applications참고 문헌 22인용 수 150

한 줄 요약

이 논문은 곱의 전문가(Product-of-Experts) 추론 네트워크와 부분 표본화(sub-sampled) 학습을 이용해 MVAE를 제시한다. 이는 누락 데이터가 있는 임의의 모달리티 간의 결합 분포를 학습하고, 파라미터 수를 줄이면서도 최첨단 성능을 달성하며, 약한 지도 학습을 가능하게 한다.

ABSTRACT

Multiple modalities often co-occur when describing natural phenomena. Learning a joint representation of these modalities should yield deeper and more useful representations. Previous generative approaches to multi-modal input either do not learn a joint distribution or require additional computation to handle missing data. Here, we introduce a multimodal variational autoencoder (MVAE) that uses a product-of-experts inference network and a sub-sampled training paradigm to solve the multi-modal inference problem. Notably, our model shares parameters to efficiently learn under any combination of missing modalities. We apply the MVAE on four datasets and match state-of-the-art performance using many fewer parameters. In addition, we show that the MVAE is directly applicable to weakly-supervised learning, and is robust to incomplete supervision. We then consider two case studies, one of learning image transformations---edge detection, colorization, segmentation---as a set of modalities, followed by one of machine translation between two languages. We find appealing results across this range of tasks.

연구 동기 및 목표

다중 공존 모달리티가 있을 때 공동 모달리티 표현 학습의 필요성 동기화.
누락 데이터가 있는 여러 모달리티에 확장 가능한 효율적 추론 체계 개발.
단일 모달 데이터 정보를 이용해 공동 분포를 inform 하는 약한 지도 학습 가능성 확보.
비전-언어 및 변환 사례를 포함한 다양한 데이터셋과 사례 연구에서 접근법 시연.

제안 방법

z라는 공동 잠재 변수와 z에 대해 조건부로 독립적인 모달리티를 가지는 다모달 VAЕ 형식으로 구성한다.
전제 포스터리어를 포함한 Uni-modal 포스터리어를 사용하여 q(z|X)라는 Product-of-Experts(Postierior)를 도출하고, 기대 모달리티의 임의 부분 집합을 처리하기 위해 prior expert를 사용한다.
전제 및 uni-modal 포스터리어가 가우시안일 때 PoE에 대한 가우시안 닫힌 형태를 제공한다.
완전 모달리티, 단일 모달리티, 그리고 다중 모달 부분집합의 임의 추출을 포함한 부분 표본 학습 목표를 도입해 누락 데이터를 관리하고 학습 효율을 높이는 ELBO 항을 최적화한다.
同じ uni-modal 인코더를 어떤 모달리티가 존재하든 재사용할 수 있도록 모달리티 조합 간 매개변수를 공유한다.
부분적으로 페어링된 데이터에서 학습하고 이를 약한 지도 학습 작업에 활용해 불완전한 지도하에서도 강건성을 보여준다.

실험 결과

연구 질문

RQ1MVAE가 단일 공유 추론 구조를 사용하여 누락 데이터가 있는 다중 모달리티 간 일관된 공동 분포를 학습할 수 있는가?
RQ2Product-of-Experts 추론이 다른 다중 모달 추론 체계에 비해 안정성과 성능을 개선하는가?
RQ3전체 예시의 일부만 다중 모달일 때 MVAE가 약한 지도하에서 어떻게 성능을 보이는가?
RQ4MVAE가 많은 모달리티로 확장되어도 유용한 공동 표현을 다양한 작업에서 학습할 수 있는가?

주요 결과

MVAE는 MNIST, 이진화된 MNIST, MultiMNIST, FashionMNIST, CelebA에서 파라미터 수를 줄이면서도 최첨단 성능에 일치한다.
18개 이상의 모달리티(CelebA의 속성들을 개별 모달리티로 간주)에서 공유된 통계적 강점으로 이점을 얻는다.
MVAE는 색상화, 에지 검출, 세분화와 같은 변환을 모달리티로 다루어 공동 다중 모달 변환을 효과적으로 학습한다.
약한 지도하에서 MVAE는 기준선보다 우수하며 중간 데이터 구간에서는 완전한 지도 모델과도 경쟁력을 유지한다.
MVAE는 모달리티 누락에 강건하고 제한된 페어링 데이터를 이용한 언어 간 변환 학습도 지원한다(약한 지도 번역).
분산 분석에서 MVAE는 이전의 공동 모달 모델들보다 중요도 가중치 분산이 더 낮아 추론 네트워크가 더 강하다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.