QUICK REVIEW

[논문 리뷰] Neural Discrete Representation Learning

Aäron van den Oord, Oriol Vinyals|arXiv (Cornell University)|2017. 11. 02.

Speech Recognition and Synthesis인용 수 1,919

한 줄 요약

벡터 양자화를 통해 학습된 이산 잠재 변수를 가진 변분 오토인코더인 VQ-VAE를 도입하여 posterior collapse를 피하고, 자기회귀 사전분포로 고품질 생성이 가능하게 한다.

ABSTRACT

Learning useful representations without supervision remains a key challenge in machine learning. In this paper, we propose a simple yet powerful generative model that learns such discrete representations. Our model, the Vector Quantised-Variational AutoEncoder (VQ-VAE), differs from VAEs in two key ways: the encoder network outputs discrete, rather than continuous, codes; and the prior is learnt rather than static. In order to learn a discrete latent representation, we incorporate ideas from vector quantisation (VQ). Using the VQ method allows the model to circumvent issues of "posterior collapse" -- where the latents are ignored when they are paired with a powerful autoregressive decoder -- typically observed in the VAE framework. Pairing these representations with an autoregressive prior, the model can generate high quality images, videos, and speech as well as doing high quality speaker conversion and unsupervised learning of phonemes, providing further evidence of the utility of the learnt representations.

연구 동기 및 목표

이미지, 오디오, 비디오 전반에 걸쳐 감독 없이 유용한 표현 학습을 유도한다.
강력한 디코더에서 관찰되는 posterior collapse를 극복하는 이산 잠재 VAE를 개발한다.
이산 잠재가 연속형 VAE의 가능도에 근접하면서도 강력한 생성 사전분포를 가능하게 함을 보인다.
이미지/비디오 생성, 음성 이해, 비지도 화자 변환 등 응용을 시연한다.

제안 방법

K개의 이산 코드를 갖는 R^{K x D}의 잠재 임베딩 공간 e를 정의한다.
인코더는 z_e(x)를 출력하고, z는 임베딩 공간 e에 대한 최근접 이웃 조회를 통해 얻어지며(z_q(x)=e_k).
세 항 손실로 학습: 재구성 로그 p(x|z_q(x)), e를 인코더 출력 쪽으로 업데이트하는 VQ 손실, 인코더 출력을 임베딩에 가깝게 유지하는 약정(커밋먼트) 손실(스톱-그래디언트 사용).
이산 양자화 단계를 통한 그래디언트를 전파하기 위해 스트레이트-스루 추정기를 사용한다.
z에 대한 균일한 사전을 가정하여 KL 항을 상수로 만들고, 나중에 z에 대한 자기회귀 사전(PixelCNN for images, WaveNet for audio)을 맞춰 생성에 사용한다.
근사로 log p(x|z_q(x)) p(z_q(x))를 통해 log p(x)를 평가하고 연속형 VAE와 비교한다.

실험 결과

연구 질문

RQ1이산 잠재 VAE(VQ-VAE)가 표준 데이터세트에서 연속 VAE와 경쟁력 있는 로그 가능도를 달성할 수 있는가?
RQ2강력한 디코더를 사용할 때 posterior collapse를 피하는 데 이산 잠재 변수가 도움이 되며 재구성 품질은 유지되는가?
RQ3학습된 이산 잠재에 대한 자기회귀 사전이 이미지, 오디오, 비디오에서 일관되고 고품질의 생성을 가능하게 하는가?
RQ4비지도 방식에서 이산 잠재 표현이 음성의 음소와 같은 의미 있는 고수준 구조를 포착하는가?

주요 결과

VQ-VAE는 CIFAR-10에서 연속 VAE에 대해 경쟁력 있는 가능도를 달성한다(4.67 bits/dim은 VQ-VAE, 4.51 bits/dim은 연속 VAE, 5.14는 VIMCO).
이산 잠재는 32x32x1 잠재 공간(K=512)과 PixelCNN 사전분포를 사용하여 ImageNet(128x128x3)에서 고품질 재구성을 가능하게 한다.
오디오의 경우 모델은 저수준 파형 세부정보에 불변하는 잠재 공간을 학습하여 음소에 가까운 의미 구조를 비지도적으로 형성하고, 별도의 화자 임베딩으로 화자 변환을 가능하게 한다.
비디오 모델링에서 잠재 공간은 학습된 사전으로부터 z를 샘플링하고 프레임으로 디코딩하여 긴 시퀀스 생성을 지원하며, 픽셀 단위 생성 없이도 지역 기하학을 유지한다.
모델은 posterior collapse를 피하고 간단하고 견고한 학습 방식으로 VQ 업데이트 및 약정 용어를 포함한 직관적인 학습 루틴을 사용한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.