QUICK REVIEW

[논문 리뷰] Learning Disentangled Representations with Semi-Supervised Deep Generative Models

N. Siddharth, Brooks Paige|arXiv (Cornell University)|2017. 06. 01.

Explainable Artificial Intelligence (XAI)인용 수 140

한 줄 요약

부분적으로 지정된 그래프 구조를 가진 반지도학적 심층 생성 모델은 유연한 신경 인코더/디코더와 중요도 샘플링 기반의 반지도학적 목적을 결합하여 해로운 표현을 분리한다. 숫자 정체성, 서체 스타일과 같은 인자들, 얼굴의 정체성과 조명, 다중 숫자 장면에서의 개수 세기를 구분하는 인자들을 해석적으로 분리하는 것을 보여준다.

ABSTRACT

Variational autoencoders (VAEs) learn representations of data by jointly training a probabilistic encoder and decoder network. Typically these models encode all features of the data into a single variable. Here we are interested in learning disentangled representations that encode distinct aspects of the data into separate variables. We propose to learn such representations using model architectures that generalise from standard VAEs, employing a general graphical model structure in the encoder and decoder. This allows us to train partially-specified models that make relatively strong assumptions about a subset of interpretable variables and rely on the flexibility of neural networks to learn representations for the remaining variables. We further define a general objective for semi-supervised learning in this model class, which can be approximated using an importance sampling procedure. We evaluate our framework's ability to learn disentangled representations, both by qualitative exploration of its generative capacity, and quantitative evaluation of its discriminative ability on a variety of models and datasets.

연구 동기 및 목표

해석 가능한 변동 인자를 분리하는 해리된 표현 학습을 자극한다.
변분 자동 인코더 내에서 부분적으로 지정된 그래프 모델을 지원하는 프레임워크를 개발한다.
잠재 인자 분할을 안내하기 위해 부분 감독을 활용하여 반지도학습을 가능하게 한다.
잠재 변수 간 임의의 의존 구조를 수용하는 일반적인 목표와 추론 방법을 제공한다.

제안 방법

일부 잠재 변수를 해석 가능하고 선택적으로 감독 받으며, 다른 변수는 신경망을 통해 학습되는 부분적으로 지정된 그래프 모델을 정의한다.
생성 모델 p_theta(x,y,z)와 인식 모델 q_phi(y,z|x) 간의 임의 의존 구조를 수용하도록 VAE 목표를 확장한다.
임의의 q_phi(y,z|x)를 다루고 y에 대한 부분 감독을 허용하는 중요도 샘플링 추정기를 사용하여 반지도학적 목표를 도출한다.
감독된 잠재 변수와 비감독 잠재 변수 모두와 함께 엔드투엔드 학습을 지원하는 확률적 계산 그래프 구성을 도입한다.
부분 감독 시나리오를 포함하여 MNIST, SVHN, Yale B 얼굴 및 다중 MNIST 설정에서 접근 방식을 시연한다.

실험 결과

연구 질문

RQ1부분적으로 지정된 확률적 그래프 모델을 효과적으로 변분 오토인코더에 통합하여 해리된 표현을 얻을 수 있는가?
RQ2잠재 변수의 임의 의존 구조가 존재할 때 반지도학습을 어떻게 형식화하고 최적화할 수 있는가?
RQ3부분 감독이 숫자 정체성, 서체 스타일, 정체성 및 조명과 같은 해석 가능한 잠재 요인의 학습을 어느 정도까지 안내하는가?
RQ4프레임워크가 확률적 차원과 구성 가능한 서브모형을 갖는 모델을 처리하면서도 해리성과 예측 성능을 보존할 수 있는가?

주요 결과

프레임워크는 해석 가능한 잠재 변수를 부분적으로 감독된 요인에 연결하고 다른 변수는 신경망 기반 학습에 맡김으로써 해리된 표현을 학습할 수 있다.
제안된 중요도 샘플링 기반 추정기(또는 그 로그-합-지수 변형)는 일반적인 잠재 의존성을 가진 모델에 대한 반지도학적 학습을 가능하게 한다.
실험은 한정된 라벨 데이터로 MNIST 및 SVHN에서 경쟁력 있는 분류 정확도를 보였으며, 유사한 설정에서 이전의 반지도학적 VAE와 비슷한 성능을 보인다.
intrins ic-face 데이터에서 모델은 정체성과 조명을 분리하고 각 잠재 요인에 대해 분류 및 회귀 작업을 부분 감독으로도 달성한다.
다중 MNIST에서 모델은 숫자를 세고 이미지를 구성 숫자로 분해하는 능력을 보여 주며, 확률적 차원성과 구성적 구조를 다룰 수 있음을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.