QUICK REVIEW

[논문 리뷰] Deep Variational Canonical Correlation Analysis

Weiran Wang, Yan, Xinchen|arXiv (Cornell University)|2016. 10. 11.

Face and Expression Recognition참고 문헌 35인용 수 99

한 줄 요약

Deep Variational CCA (VCCA) 및 VCCA-private를 도입하여 신경망을 사용해 공유 잠재 표현을 학습하고 private 뷰-특정 정보를 해리하는 확률적 다중 뷰 모델로, 해석 가능한 변분 학습 및 샘플 생성 가능.

ABSTRACT

We present deep variational canonical correlation analysis (VCCA), a deep multi-view learning model that extends the latent variable model interpretation of linear CCA to nonlinear observation models parameterized by deep neural networks. We derive variational lower bounds of the data likelihood by parameterizing the posterior probability of the latent variables from the view that is available at test time. We also propose a variant of VCCA called VCCA-private that can, in addition to the "common variables" underlying both views, extract the "private variables" within each view, and disentangles the shared and private information for multi-view data without hard supervision. Experimental results on real-world datasets show that our methods are competitive across domains.

연구 동기 및 목표

선형 CCA의 잠재변수 해석을 비선형의 심층 관찰 모델로 확장한다.
테스트 시 뷰 기반의 후방 분포를 사용하여 데이터 가능도에 대한 변분 하한을 도출한다.
뷰 간에 공유(공통) 정보와 private 정보를 해리하기 위한 VCCA-private를 도입한다.
확률적 경사 하강법과 재매개화를 통한 확장 가능한 엔드-투-엔드 훈련을 제공한다.
이미지-이미지, 음성-발화, 이미지-텍스트 벤치마크에서 경쟁력 있는 성능을 입증한다.

제안 방법

잠재 z에서 생성된 pθ(x|z) 및 pθ(y|z)인 비선형 관찰로 x와 y를 모델링하며, p(z)로 가우시안 사전분포를 가진다.
pθ(z|x)를 qφ(z|x)로 근사하고, L(x,y;θ,φ)를 통해 pθ(x,y)에 대한 변분 하한을 최대화한다.
bound의 몬테카를로 추정을 위한 z를 qφ(z|x)로 샘플링하기 위해 재매개화 트릭을 사용한다.
복원 항을 log pθ(x|z) 및 log pθ(y|z)로 해석하고, 잠재 노이즈를 Σ로 표현하여 MVAE와 연결하며 autoencoder 스타일의 목적와와 연결한다.
qφ(z|x) qφ(hx|x) qφ(hy|y)가 인자로 분리된 후방을 갖도록 하여 hx, yh 같은 private 변수와 해당 bound를 도입한다.
Adam을 사용한 확률적 경사 하강법으로 엔드투엔드 최적화를 가능하게 학습한다.

실험 결과

연구 질문

RQ1깊은 확률 모델이 다중 뷰에 대해 공유 잠재 표현을 회복하면서 비선형 뷰 생성 과정을 허용할 수 있는가?
RQ2변분 목표가 다중 뷰 데이터의 잠재 공간에 대한 해석 가능한 추론과 샘플링을 가능하게 하는가?
RQ3감독 없이도 private 뷰-특정 잠재 변수를 도입하면 해리 및 재구성이 향상되는가?
RQ4이전 다중 뷰 방법과 비교하여 VCCA 및 VCCA-private가 이미지-이미지, 음성-발화, 이미지-텍스트 벤치마크에서 어떻게 성능을 보이는가?
RQ5학습된 표현이 테스트 시 모든 뷰에 접근할 수 있는지 여부에 관계없이 다운스트림 작업을 지원할 수 있는가?

주요 결과

Method	MNIST Error (%)	XRMB PER (%)	Flickr mAP (%)
Original inputs	13.1*	37.6+	0.480
CCA	19.1*	29.4+	0.529
DCCA	2.9*	25.4+	0.573
DCCAE	2.2*	25.4	0.573
Contrastive	2.7	24.6	0.565
MVAE (orig)	11.7*	29.4	0.477
MVAE-var	-	-	-
VCCA	3.0	28.0	0.605
VCCA-private	2.4	25.2	0.615
bi-VCCA	-	-	0.606
bi-VCCA-private	-	-	0.626

VCCA 및 VCCA-private가 데이터 세트(MNIST, XRMB, MIR-Flickr)에서 경쟁력 있거나 우수한 다운스트림 성능을 달성한다.
VCCA는 변분 bound와 재매개화를 사용하여 확률적 경사 방법으로 엔드투엔드로 학습될 수 있다.
VCCA-private는 공유 정보와 개인 정보를 해리하여 재구성 품질과 잠재 공간의 클래스 분리를 개선한다.
MNIST에서 VCCA는 3.0% (MNIST 에러)이고 VCCA-private는 2.4% (MNIST 에러)이다.
XRMB에서 VCCA는 28.0% PER, VCCA-private는 25.2% PER로 경쟁력 있는 음소 인식 성능을 나타낸다.
MIR-Flickr에서 VCCA와 VCCA-private는 여러 베이스라인보다 높은 mAP를 달성하고 단일 모드 검색 및 교차 모달 분석을 효과적으로 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.