QUICK REVIEW

[논문 리뷰] Backpropagation through the Void: Optimizing control variates for black-box gradient estimation

Will Grathwohl, Dami Choi|arXiv (Cornell University)|2017. 10. 31.

Reinforcement Learning in Robotics참고 문헌 26인용 수 99

한 줄 요약

본 논문은 LAX, RELAX, DLAX 그래디언트 추정기를 도입하여 신경망 기반 제어 변수를 학습하고 블랙박스 함수에 대해 편향되지 않고 분산이 낮은 그래디언트를 얻으며, 이산 및 연속 변수 포함, 이산 잠재 변수 모델 및 강화학습에 응용한다.

ABSTRACT

Gradient-based optimization is the foundation of deep learning and reinforcement learning. Even when the mechanism being optimized is unknown or not differentiable, optimization using high-variance or biased gradient estimates is still often the best strategy. We introduce a general framework for learning low-variance, unbiased gradient estimators for black-box functions of random variables. Our method uses gradients of a neural network trained jointly with model parameters or policies, and is applicable in both discrete and continuous settings. We demonstrate this framework for training discrete latent-variable models. We also give an unbiased, action-conditional extension of the advantage actor-critic reinforcement learning algorithm.

연구 동기 및 목표

목표가 블랙박스이거나 미분 불가능한 경우 그래디언트 기반 최적화를 고무한다.
대리 신경망을 사용하여 제어 변수를 구축하는 통합 프레임워크를 개발한다.
REINFORCE, reparameterization, 그리고 학습된 제어 변수를 결합한 편향되지 않은 그래디언트 추정기를 도출한다.
완화(relaxation)와 조건부 reparameterization을 통해 이 접근법을 이산 변수로 확장한다.
이산 잠재 변수 모델 및 강화학습에의 적용 가능성을 보여준다.

제안 방법

f(b)에 대한 미분가능한 대리 함수 c_phi 를 구성하고 REINFORCE와 reparameterization 항을 결합하여 LAX 그래디언트 추정기를 형성한다.
편향되지 않은 추정치를 사용하여 그래디언트 분산을 최소화함으로써 모델 매개변수와 함께 대리 함수 c_phi 를 최적화한다.
완화된 연속 변수와 Gumbel-softmax 트릭을 사용하여 이산 변수에 확장하고 DLAX 추정기를 얻는다.
무편향성을 유지하면서 relaxations z와 조건부 relaxations tilde{z}에서 대리 함수를 평가하여 RELAX를 통해 추가로 정제한다.
작용 의존적이고 미분 가능한 제어 변수를 갖는 LAX 기반 RL 그래디언트를 구성하여 강화학습에 추정기를 적용한다.
f의 알려진 구조를 활용하기 위한 제어 변수의 아키텍처 선택을 논의한다(예: REBAR/CONCRETE 완화와의 연결).

실험 결과

연구 질문

RQ1블랙박스 그래디언트 추정에 대해 저변동 제어변수로 작동하도록 신경망 대리함수를 학습할 수 있는가?
RQ2REINFORCE와 reparameterization을 학습 가능한 대리함수와 결합하여 편향성을 보존하면서 분산을 줄일 수 있는가?
RQ3연속 완화 및 조건부 reparameterization을 통해 이 접근법을 이산 변수로 확장할 수 있는가?
RQ4학습된 제어변수가 기존 추정기와 비교하여 이산 잠재 변수 훈련 및 강화학습 과제에서 어떤 성능을 보이는가?

주요 결과

미분가능한 대리 함수 기반 그래디언트 추정기(LAX)는 REINFORCE와 reparameterization을 결합함으로써 편향되지 않은 그래디언트를 제공하고 분산을 감소시킬 수 있다.
모델 매개변수와 대리 컨트롤러를 공동으로 최적화하면 그래디언트 분산을 직접 최소화할 수 있다.
DLAX와 RELAX의 확장은 이산 변수에 대한 편향되지 않고 분산이 낮은 추정기를 완화와 조건부 reparameterization을 사용하여 제공하며, 이산 VAE와 RL 과제에서 성능을 향상시킨다.
실험 결과 MNIST/Omniglot의 이산 VAE에서 학습 속도와 수렴이 향상되고 RL 환경에서 샘플 효율성이 향상되었음을 보인다.
RELAX은 학습 가능한 유연한 대리함수를 허용하는 방식으로, 보고된 실험에서 수렴 속도 측면에서 REBAR와 같은 기존 방법보다 우수할 수 있다.
이 프레임워크는 미분 가능한 완화가 사용 가능하지 않은 블랙박스 목표에 대한 그래디언트 추정을 일반화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.