QUICK REVIEW

[논문 리뷰] Improving Variational Inference with Inverse Autoregressive Flow

Diederik P. Kingma, Tim Salimans|arXiv (Cornell University)|2016. 06. 15.

Generative Adversarial Networks and Image Synthesis참고 문헌 33인용 수 185

한 줄 요약

역자기회귀 흐름(IAF)을 도입한 것은 고차원 잠재 공간에 대한 확장 가능한 정규화 흐름으로, VAE의 변분 포스트eri어를 크게 개선하고 더 빠른 샘플링으로 CIFAR-10에서 경쟁력 있는 로그 가능도를 달성합니다.

ABSTRACT

The framework of normalizing flows provides a general strategy for flexible variational inference of posteriors over latent variables. We propose a new type of normalizing flow, inverse autoregressive flow (IAF), that, in contrast to earlier published flows, scales well to high-dimensional latent spaces. The proposed flow consists of a chain of invertible transformations, where each transformation is based on an autoregressive neural network. In experiments, we show that IAF significantly improves upon diagonal Gaussian approximate posteriors. In addition, we demonstrate that a novel type of variational autoencoder, coupled with IAF, is competitive with neural autoregressive models in terms of attained log-likelihood on natural images, while allowing significantly faster synthesis.

연구 동기 및 목표

변분 추론에서 단순한 인수 분해 포스트eri어의 한계를 동기 부여하고 다룬다.
고차원 잠재 공간에 적합한 확장 가능한 정규화 흐름을 도입한다.
향상된 포스트eri어 유연성과 더 촘촘한 변분 경계를 시연한다.
실제 이미지 데이터셋에서 심층 VAE 아키텍처의 성능 향상을 보여준다.

제안 방법

z0가 간단한 분포에서 샘플링되고 자기회귀적이고 가역적인 연쇄 단계를 통해 변환되는 역자기회귀 흐름(IAF)을 제안한다.
각 단계에서 zt = μt + σt ⊙ zt−1이고, 자기회귀 네트워크가 μt, σt를 생성하며 다루기 쉬운 로그-결정도(log-determinant)를 제공한다.
LSTM 업데이트에서 영감을 받은 잊힘 게이트 편향을 사용한 수치적으로 안정적인 변형을 제공한다.
고차원 잠재를 위해 픽셀CNN 기반의 자기회귀 네트워크(MADE 변형)를 사용한다.
단계 간 변수 순서를 뒤집는 것을 허용하여 부피를 보존하고, 닫힌 형태의 로그-결정도(−log σi의 합)를 도출한다.
MNIST와 CIFAR-10에서 심층 VAE의 표현력 있는 포스트eri어로서 IAF를 평가하고, 대각 가우시안 및 다른 흐름과 비교한다.

실험 결과

연구 질문

RQ1역자기회귀 흐름이 고차원 잠재 공간에 대해 확장 가능하고 유연한 포스트eri어 근사치를 제공하는가?
RQ2IAF가 표준 이미지 데이터셋에서 변분 하한의 조임과 달성된 로그 가능도에 어떤 영향을 미치는가?
RQ3PixelCNN과 같은 자기회귀 생성 모델에 비해 IAF가 VAE의 샘플링 속도에 어떤 영향을 미치는가?
RQ4MNIST와 CIFAR-10에서 다층 IAF 변환과 자기회귀 네트워크를 쌓는 것이 성능에 어떤 영향을 주는가?
RQ5IAF가 합성을 위한 효율적인 샘플링을 유지하면서 경쟁력 있는 로그 가능도 결과를 달성할 수 있는가?

주요 결과

모델	VLB	로그 p(x)
Diagonal covariance	-84.08 (± 0.10)	-81.08 (± 0.08)
IAF (Depth = 2, Width = 320)	-82.02 (± 0.08)	-79.77 (± 0.06)
IAF (Depth = 2, Width = 1920)	-81.17 (± 0.08)	-79.30 (± 0.08)
IAF (Depth = 4, Width = 1920)	-80.93 (± 0.09)	-79.17 (± 0.08)
IAF (Depth = 8, Width = 1920)	-80.80 (± 0.07)	-79.10 (± 0.07)

IAF는 변분 오토인코더에서 대각 가우시안 포스트eri어에 비해 큰 개선을 보인다.
더 깊고 넓은 IAF 포스트eri어가 MNIST에서 더 촘촘한 변분 경계와 더 나은 로그 가능도를 제공한다.
CIFAR-10에서 IAF를 적용한 ResNet VAE가 3.11 bits per dimension의 성능을 달성하며 최첨단 잠재 변수 모델과 대등하고 PixelCNN 기반 모델보다 훨씬 빠른 샘플링 속도를 보인다.
ResNet VAE + IAF의 샘플링은 Titan X에서 이미지당 약 0.05초인 반면 PixelCNN 기반 샘플링은 52초에 이른다.
다층의 자기회귀 포스트eri어를 사용하면 경계가 크게 촘촘해지고 고정된 대각 포스트eri어에 비해 생성 모델의 성능이 크게 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.