QUICK REVIEW

[논문 리뷰] Sinkhorn AutoEncoders

Giorgio Patrini, Rianne van den Berg|arXiv (Cornell University)|2018. 10. 02.

Generative Adversarial Networks and Image Synthesis참고 문헌 34인용 수 30

한 줄 요약

이 논문은 재구성 오차와 잠재 공간에서의 집합 사후분포와 사전분포 간의 p-Wasserstein 거리 최소화를 통해 데이터 분포와 생성기 분포 사이의 p-Wasserstein 거리를 최소화하는 likelihood-free 생성 모델인 Sinkhorn AutoEncoders (SAE)를 소개한다. SAE는 역전파를 통해 알고리즘을 통한 백프로파게이션을 가능하게 하는 미분 가능한 Sinkhorn 반복을 사용하여 임의의 거리 공간과 사전분포에서 엔드 투 엔드 학습을 가능하게 하며, 재파rameterization이 필요 없고 수렴성과 생성기 용량 일치에 대한 이론적 보장이 있다.

ABSTRACT

Optimal transport offers an alternative to maximum likelihood for learning generative autoencoding models. We show that minimizing the p-Wasserstein distance between the generator and the true data distribution is equivalent to the unconstrained min-min optimization of the p-Wasserstein distance between the encoder aggregated posterior and the prior in latent space, plus a reconstruction error. We also identify the role of its trade-off hyperparameter as the capacity of the generator: its Lipschitz constant. Moreover, we prove that optimizing the encoder over any class of universal approximators, such as deterministic neural networks, is enough to come arbitrarily close to the optimum. We therefore advertise this framework, which holds for any metric space and prior, as a sweet-spot of current generative autoencoding objectives. We then introduce the Sinkhorn auto-encoder (SAE), which approximates and minimizes the p-Wasserstein distance in latent space via backprogation through the Sinkhorn algorithm. SAE directly works on samples, i.e. it models the aggregated posterior as an implicit distribution, with no need for a reparameterization trick for gradients estimations. SAE is thus able to work with different metric spaces and priors with minimal adaptations. We demonstrate the flexibility of SAE on latent spaces with different geometries and priors and compare with other methods on benchmark data sets.

연구 동기 및 목표

변분 추론과 최대우도 추정의 한계를 피하는 민감하고 likelihood-free인 생성 자동에코딩 프레임워크를 개발하기 위해.
데이터와 생성기 사이의 p-Wasserstein 거리 최소화와 재구성 오차 및 사전분포에 대한 잠재 공간 내의 p-Wasserstein 거리 최적화 간의 등가성을 수립하기 위해.
모델 용량과 관련하여 생성기의 리프시츠 상수로 해석되는 트레이드오프 하이퍼파ram터 γ를 설정하기 위해.
확정적 신경망을 인코더로 사용할 경우 잠재 공간에서 최적 해에 임의로 가까이 수렴할 수 있음을 보여주어 잠재 공간에서의 보편 근사 가능성을 입증하기 위해.
재파rameterization이 필요 없이 Sinkhorn 알고리즘을 통한 역전파를 통해 임의의 거리 공간과 사전분포에서의 학습을 가능하게 하기 위해.

제안 방법

재구성 오차와 잠재 공간에서의 집합 사후분포와 사전분포 간의 p-Wasserstein 거리 최소화를 비제약 최소화-최소화 최적화 문제로 공식화한다.
잠재 공간 내의 p-Wasserstein 거리 근사에 대해 미분 가능한 Sinkhorn 반복을 사용하는 Sinkhorn AutoEncoder (SAE)를 도입하여 역전파를 통한 기울기 기반 최적화를 가능하게 한다.
집합 사후분포를 샘플 기반 은닉 분포로 간주함으로써 재파rameterization이나 명시적 밀도 추정이 필요 없도록 한다.
비가우시안 및 구조적 사전분포(예: 다이리클레 분포, 초구면 위의 균일 분포 등)를 포함한 임의의 거리 공간과 사전분포를 지원한다.
Monge-Kantorovich 이중성과 데이터 처리 부등식을 활용하여, 원래 목표의 타당한 대체로 잠재 공간 내의 p-Wasserstein 거리를 사용할 수 있음을 정당화한다.
인코더와 생성기 모두에 신경망을 사용하여 엔드 투 엔드로 구현하며, 반복적 투영 단계를 통해 Sinkhorn 알고리즘이 미분 가능하도록 한다.

실험 결과

연구 질문

RQ1데이터와 생성기 사이의 p-Wasserstein 거리 최소화를 재구성 오차와 잠재 분포 간 거리 최소화의 비제약 최적화 문제로 재정의할 수 있는가?
RQ2생성기 용량과 리프시츠 연속성의 맥락에서 트레이드오프 하이퍼파ram터 γ의 이론적 역할은 무엇인가?
RQ3확정적 신경망을 인코더로 사용할 경우 잠재 공간에서 최적 해에 임의로 가까이 수렴할 수 있는가?
RQ4Sinkhorn 알고리즘이 밀도 모델이나 재파rameterization 없이도 잠재 공간 내의 최적 운반 문제를 효과적으로, 미분 가능하게 최적화할 수 있는가?
RQ5특히 비가우시안 또는 구조적 사전분포를 사용할 경우, 생성 샘플의 분리성과 품질에 어떤 영향을 미치는가?

주요 결과

적당한 정규성 조건 하에서, 데이터 분포와 생성기 분포 사이의 p-Wasserstein 거리는 재구성 오차와 잠재 공간에서의 집합 사후분포와 사전분포 간의 p-Wasserstein 거리 최소화와 정확히 동치이다.
목표 함수 내의 트레이드오프 하이퍼파ram터 γ는 생성기의 리프시츠 상수와 정확히 일치하며, 이는 모델 용량 제어 기능을 이론적으로 해석할 수 있음을 보여준다.
임의의 보편 근사자 클래스(예: 확정적 신경망)를 통해 인코더를 최적화할 경우, 모델은 최적 해에 임의로 가까이 수렴할 수 있으며, 이는 표준 딥 네트워크의 사용을 정당화한다.
MNIST와 CelebA에서 SAE는 경쟁 모델들(VAE, WAE, HVAE 등)과 비교해 FID 점수를 유사하거나 뛰어나게 달성한다. 특히 다이리클레 분포나 초구면 균일 분포와 같은 비가우시안 사전분포를 사용할 경우 성능이 뛰어나다.
고차원 가우시안 사전분포에서는 SAE와 HAE가 질량이 얇은 링에 집중되어 모드 붕괴 현상을 보이지만, W2GAE와 SWAE는 이 문제를 피함을 보여주며, 이는 사전분포 기하학에 민감함을 시사한다.
16차원의 Dirichlet(1/5) 사전분포를 사용할 경우, SAE는 각 숫자가 정점에 대응하는 구조적 잠재 공간을 학습하며, 정점에서의 명확한 보간과 고품질 샘플 생성이 가능하지만, 저확률 영역에서는 일치하지 않는 현상이 여전히 존재한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.