QUICK REVIEW

[논문 리뷰] Multimodal Generative Learning Utilizing Jensen-Shannon Divergence

Thomas M. Sutter, Imant Daunhawer|arXiv (Cornell University)|2020. 06. 15.

Music and Audio Processing참고 문헌 29인용 수 7

한 줄 요약

이 논문은 다중 모odal Jensen-Shannon 발산(mmJSD) 목적함수를 사용하여 다중 모달 데이터 유형을 공동으로 모델링하는 새로운 다중 모달 변동형 오토인코더를 제안한다. 이는 결측 모달리티에 대해 강건한 스케일러블이고 자기지도 학습을 가능하게 한다. 동적 사전분포를 도입하여 단모달 및 공동 사후분포를 통합함으로써 타당한 ELBO를 최적화하고, CelebA에서 이미지와 텍스트 간의 분리 표현 학습 및 일관성 있는 생성에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Learning from different data types is a long-standing goal in machine learning research, as multiple information sources co-occur when describing natural phenomena. However, existing generative models that approximate a multimodal ELBO rely on difficult or inefficient training schemes to learn a joint distribution and the dependencies between modalities. In this work, we propose a novel, efficient objective function that utilizes the Jensen-Shannon divergence for multiple distributions. It simultaneously approximates the unimodal and joint multimodal posteriors directly via a dynamic prior. In addition, we theoretically prove that the new multimodal JS-divergence (mmJSD) objective optimizes an ELBO. In extensive experiments, we demonstrate the advantage of the proposed mmJSD model compared to previous work in unsupervised, generative learning tasks.

연구 동기 및 목표

감독 없이 또는 복잡한 학습 체계 없이 다중 모달리티를 위한 확장 가능한 자기지도 생성 모델을 개발하는 것.
가용 데이터에 조건을 두고 일관성 있는 생성과 추론을 가능하게 하여 모달리티가 결손된 상황을 해결하는 것.
통합 목적함수를 통해 단모달 및 다중 모달 사후분포를 공동으로 모델링하여 표현 학습을 향상시키는 것.
세 개 이상의 모달리티가 있는 스케일러블하고 자기지도 학습 환경에서 모달리티별 잠재 하위공간의 효과를 입증하는 것.

제안 방법

M+1개의 분포에 대해 다중 모달 Jensen-Shannon 발산(mmJSD) 기반의 새로운 목적함수를 제안하여 단모달 및 다중 모달 사후분포의 공동 최적화를 가능하게 한다.
다양한 모달리티에서 온 변동형 사후분포를 공유 혼합 분포로 적응적으로 조합하는 동적 사전분포를 도입한다.
mmJSD의 기준 분포로 혼합 분포 fM({qν(z)})를 사용하여 모든 가용 모달리티의 기여를 균형 있게 조정할 수 있도록 한다.
ELBO가 mmJSD 목적함수로부터 유도되는 변동형 추론 프레임워크를 사용하여 로그우도의 타당한 하한으로 유지되도록 보장한다.
이미지와 텍스트 각각에 대해 32차원의 모달리티별 잠재공간을 사용하고, 공동 표현을 위한 공유 잠재공간을 제공한다.
ADAM을 사용하여 학습하며, CelebA에서 배치 크기 256, 에포크 수 100, 학습률 0.001로 설정하여 중요도 샘플링이나 보조 목적함수 없이 엔드 투 엔드 최적화를 가능하게 한다.

실험 결과

연구 질문

RQ1추가적인 감독이나 학습 목표 없이도 단일 목적함수로 확장 가능한 방식으로 단모달 및 다중 모달 사후분포를 공동 최적화할 수 있는가?
RQ2모달리티가 결손되거나 불완전할 경우 제안된 mmJSD 목적함수의 분리 표현 학습 성능는 어떠한가?
RQ3모달리티별 잠재 하위공간의 사용이 다중 모달 생성 모델의 표현 품질과 생성의 일관성에 기여하는가?
RQ4동적 사전분포 메커니즘이 다양한 모달리티의 기여를 효과적으로 균형 조절하고 결손 데이터 상황에서도 성능을 유지하는가?
RQ5다중 모달 데이터셋에서 표현 품질과 생성 정확도 측면에서 mmJSD 기반 모델은 이전 방법들과 비교해 어떻게 성능을 내는가?

주요 결과

mmJSD 목적함수는 이전 방법들보다 평균 정밀도가 높은 바, 이미지 및 텍스트 표현에서 속성 분류 성능이 최신 기술 수준 또는 그 이상이다.
모델은 부분적 또는 결손된 모달리티에 조건을 두고도 일관성 있고 다양한 샘플을 생성하여 동적 사전분포 메커니즘을 통해 결손 데이터에 대한 강건성을 입증한다.
그림 8과 9의 정량적 결과는 mmJSD 모델이 표현 학습 및 생성 모두에서 이전 접근법을 능가함을 보여주며, '부풀어오른 눈썹'이나 '5시 그림자'와 같은 어려운 속성에 대해 특히 두드러진 성능 향상을 보인다.
생성 샘플에 대한 속성 분류 정확도가 높아, 모달리티별 하위공간에서 분리 표현을 성공적으로 학습한 것으로 확인된다.
본 연구는 두 개 이상의 모달리티가 있는 자기지도 학습 환경에서 모달리티별 하위공간의 이점을 실증적으로 입증한 최초의 방법이다.
제거 실험 결과 동적 사전분포와 mmJSD 목적함수가 성능 향상에 필수적임을 확인하였으며, 이를 제거할 경우 생성 및 표현 품질이 떨어진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.