Skip to main content
QUICK REVIEW

[논문 리뷰] REBAR: Low-variance, unbiased gradient estimates for discrete latent variable models

George Tucker, Andriy Mnih|arXiv (Cornell University)|2017. 03. 21.
Generative Adversarial Networks and Image Synthesis인용 수 167
한 줄 요약

REBAR은 온라인 온도 조정으로 RELAXed Concrete 분포의 REINFORCE 및 재매개변수화 그래디언트 간의 격차를 기반으로 한 컨트롤 바이로를 사용하여 이산 잠재 변수 모델에 대해 편향되지 않고 분산이 낮은 그래디언트 추정기를 도입합니다.

ABSTRACT

Learning in models with discrete latent variables is challenging due to high variance gradient estimators. Generally, approaches have relied on control variates to reduce the variance of the REINFORCE estimator. Recent work (Jang et al. 2016, Maddison et al. 2016) has taken a different approach, introducing a continuous relaxation of discrete variables to produce low-variance, but biased, gradient estimates. In this work, we combine the two approaches through a novel control variate that produces low-variance, \emph{unbiased} gradient estimates. Then, we introduce a modification to the continuous relaxation and show that the tightness of the relaxation can be adapted online, removing it as a hyperparameter. We show state-of-the-art variance reduction on several benchmark generative modeling tasks, generally leading to faster convergence to a better final log-likelihood.

연구 동기 및 목표

  • 이산 잠재 변수의 그래디언트 추정에서 높은 분산 문제를 동기 부여하고 다룬다.
  • REINFORCE와 재매개변수화를 기반으로 한 컨트롤 바이로를 결합하여 분산이 낮고 편향되지 않은 그래디언트 추정기를 개발한다.
  • 변형된 연속 근사치(Concrete)와 조건부 주변화를 도입하여 분산 감소를 개선한다.
  • 추가 하이퍼파라미터를 제거하기 위해 Relaxation 온도(lambda)의 온라인 적응을 가능하게 한다.
  • 생성 모델링 및 구조화 예측 작업에서 최첨단 분산 감소를 보여준다.

제안 방법

  • Relaxed 모델에 대한 REINFORCE와 재매개변수화 그래디언트의 차이에 기반한 컨트롤 바이로를 정의한다.
  • p(z|b)를 사용하여 컨트롤 바이로를 조건부로 주변화하여 REBAR를 만들고 보정된 재매개변수화 그래디언트와 결합한다.
  • 계산 및 분산을 줄이기 위해 무작위 변수들(u, v)을 연결한다.
  • 온도 매개변수 lambda를 포함하는 편향되지 않은 그래디언트 추정기를 도출한다.
  • 추정기 분산을 최소화하여 lambda를 온라인으로 최적화한다.
  • 고온(높은 온도) 극한에서 MuProp과의 연결을 논의하고 다층 확률 네트워크로 확장한다.

실험 결과

연구 질문

  • RQ1Relaxation의 하이퍼파라미터 조정 없이 이산 잠재 변수 모델에 대해 분산이 낮은 편향 그래디언트 추정기를 구성할 수 있는가?
  • RQ2Relaxation(Concrete 분포)을 기반으로 하는 컨트롤 바이로가 기존의 추정기들과 비교해 분산을 실질적으로 감소시키는가?
  • RQ3온라인으로 Relaxation 온도 조정을 수행하면 바이어스 없이 그래디언트 분산을 더 줄일 수 있는가?
  • RQ4REBAR의 성능은 NVIL, MuProp, Gumbel-Softmax/Concrete에 비해 생성 및 구조화 예측 작업에서 어떻게 되는가?
  • RQ5다양한 온도 영역에서 REBAR, MuProp, SimpleMuProp 간의 이론적 및 실용적 관계는 무엇인가?

주요 결과

  • REBAR는 테스트된 작업들에서 편향되지 않은 그래디언트 추정기들 가운데 최첨단 분산 감소를 달성한다.
  • MNIST 및 Omniglot 생성 모델링에서 온라인 lambda 적응과 함께 REBAR은 그래디언트 분산을 일관되게 감소시키고 수렴 및 최종 로그-가능도(log-likelihood)를 개선한다.
  • 일부 설정에서 특히 선형 모델에서 Concrete(Gumbel-Softmax) 추정기보다 REBAR이 더 나은 성능을 보이며, 비선형 설정에서도 성능이 맞먹거나 상회한다.
  • 수정된 Relaxation은 고온 한계에서 REBAR와 MuProp 간의 연결을 SimpleMuProp이라고 부르는 관계로 드러낸다.
  • Relaxation 온도(lambda)의 온라인 최적화는 편향을 도입하지 않으면서 분산을 효과적으로 감소시켜 lambda를 사전에 지정할 필요를 제거한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.