Skip to main content
QUICK REVIEW

[논문 리뷰] Backpropagation through the Void: Optimizing control variates for black-box gradient estimation

Will Grathwohl, Dami Choi|arXiv (Cornell University)|2017. 10. 31.
Reinforcement Learning in Robotics참고 문헌 26인용 수 99
한 줄 요약

본 논문은 LAX, RELAX, DLAX 그래디언트 추정기를 도입하여 신경망 기반 제어 변수를 학습하고 블랙박스 함수에 대해 편향되지 않고 분산이 낮은 그래디언트를 얻으며, 이산 및 연속 변수 포함, 이산 잠재 변수 모델 및 강화학습에 응용한다.

ABSTRACT

Gradient-based optimization is the foundation of deep learning and reinforcement learning. Even when the mechanism being optimized is unknown or not differentiable, optimization using high-variance or biased gradient estimates is still often the best strategy. We introduce a general framework for learning low-variance, unbiased gradient estimators for black-box functions of random variables. Our method uses gradients of a neural network trained jointly with model parameters or policies, and is applicable in both discrete and continuous settings. We demonstrate this framework for training discrete latent-variable models. We also give an unbiased, action-conditional extension of the advantage actor-critic reinforcement learning algorithm.

연구 동기 및 목표

  • 목표가 블랙박스이거나 미분 불가능한 경우 그래디언트 기반 최적화를 고무한다.
  • 대리 신경망을 사용하여 제어 변수를 구축하는 통합 프레임워크를 개발한다.
  • REINFORCE, reparameterization, 그리고 학습된 제어 변수를 결합한 편향되지 않은 그래디언트 추정기를 도출한다.
  • 완화(relaxation)와 조건부 reparameterization을 통해 이 접근법을 이산 변수로 확장한다.
  • 이산 잠재 변수 모델 및 강화학습에의 적용 가능성을 보여준다.

제안 방법

  • f(b)에 대한 미분가능한 대리 함수 c_phi 를 구성하고 REINFORCE와 reparameterization 항을 결합하여 LAX 그래디언트 추정기를 형성한다.
  • 편향되지 않은 추정치를 사용하여 그래디언트 분산을 최소화함으로써 모델 매개변수와 함께 대리 함수 c_phi 를 최적화한다.
  • 완화된 연속 변수와 Gumbel-softmax 트릭을 사용하여 이산 변수에 확장하고 DLAX 추정기를 얻는다.
  • 무편향성을 유지하면서 relaxations z와 조건부 relaxations tilde{z}에서 대리 함수를 평가하여 RELAX를 통해 추가로 정제한다.
  • 작용 의존적이고 미분 가능한 제어 변수를 갖는 LAX 기반 RL 그래디언트를 구성하여 강화학습에 추정기를 적용한다.
  • f의 알려진 구조를 활용하기 위한 제어 변수의 아키텍처 선택을 논의한다(예: REBAR/CONCRETE 완화와의 연결).

실험 결과

연구 질문

  • RQ1블랙박스 그래디언트 추정에 대해 저변동 제어변수로 작동하도록 신경망 대리함수를 학습할 수 있는가?
  • RQ2REINFORCE와 reparameterization을 학습 가능한 대리함수와 결합하여 편향성을 보존하면서 분산을 줄일 수 있는가?
  • RQ3연속 완화 및 조건부 reparameterization을 통해 이 접근법을 이산 변수로 확장할 수 있는가?
  • RQ4학습된 제어변수가 기존 추정기와 비교하여 이산 잠재 변수 훈련 및 강화학습 과제에서 어떤 성능을 보이는가?

주요 결과

  • 미분가능한 대리 함수 기반 그래디언트 추정기(LAX)는 REINFORCE와 reparameterization을 결합함으로써 편향되지 않은 그래디언트를 제공하고 분산을 감소시킬 수 있다.
  • 모델 매개변수와 대리 컨트롤러를 공동으로 최적화하면 그래디언트 분산을 직접 최소화할 수 있다.
  • DLAX와 RELAX의 확장은 이산 변수에 대한 편향되지 않고 분산이 낮은 추정기를 완화와 조건부 reparameterization을 사용하여 제공하며, 이산 VAE와 RL 과제에서 성능을 향상시킨다.
  • 실험 결과 MNIST/Omniglot의 이산 VAE에서 학습 속도와 수렴이 향상되고 RL 환경에서 샘플 효율성이 향상되었음을 보인다.
  • RELAX은 학습 가능한 유연한 대리함수를 허용하는 방식으로, 보고된 실험에서 수렴 속도 측면에서 REBAR와 같은 기존 방법보다 우수할 수 있다.
  • 이 프레임워크는 미분 가능한 완화가 사용 가능하지 않은 블랙박스 목표에 대한 그래디언트 추정을 일반화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.