QUICK REVIEW

[論文レビュー] Backpropagation through the Void: Optimizing control variates for black-box gradient estimation

Will Grathwohl, Dami Choi|arXiv (Cornell University)|Oct 31, 2017

Reinforcement Learning in Robotics参考文献 26被引用数 99

ひとこと要約

本論文は LAX、RELAX、および DLAX 勾配推定量を導入し、ニューラルネットワークベースのコントロール変数を学習して、黒箱関数の不偏で低分散な勾配を得る。離散変数と連続変数を含み、離散潜在変数モデルや強化学習への応用を含む。

ABSTRACT

Gradient-based optimization is the foundation of deep learning and reinforcement learning. Even when the mechanism being optimized is unknown or not differentiable, optimization using high-variance or biased gradient estimates is still often the best strategy. We introduce a general framework for learning low-variance, unbiased gradient estimators for black-box functions of random variables. Our method uses gradients of a neural network trained jointly with model parameters or policies, and is applicable in both discrete and continuous settings. We demonstrate this framework for training discrete latent-variable models. We also give an unbiased, action-conditional extension of the advantage actor-critic reinforcement learning algorithm.

研究の動機と目的

黒箱または非微分可能な目的関数に対して勾配ベースの最適化を動機づける。
代理ニューラルネットワークを用いてコントロール変数を構築する統一的な枠組みを開発する。
不偏勾配推定量を導出し、REINFORCE、再パラメータ化、学習されたコントロール変数を組み合わせる。
連続変数には緩和と条件付き再パラメータ化を用いてアプローチを拡張する。
離散潜在変数モデルと強化学習への適用性を示す。

提案手法

f(b) に対する微分可能な代理 c_phi を構築し、REINFORCE と再パラメータ化の項を組み合わせて LAX 勾配推定量を形成する。
不偏な推定を用いて勾配分散を最小化することにより、モデルパラメータと代理 c_phi を共同で最適化する。
離散変数には緩和された連続変数と Gumbel-Softmax の手法を用いて拡張し、DLAX 推定量を得る。
さらに RELAX によって、緩和 z と条件付き緩和 tilde{z} の両方で代理を評価して不偏性を維持する。
強化学習への適用として、行動依存かつ微分可能なコントロール変数を用いた LAX ベースの RL 勾配を定式化する。
f の既知の構造を活用するためのコントロール変数のアーキテクチャ選択について議論する（例: REBAR/CONCRETE 緩和との関連）。

実験結果

リサーチクエスチョン

RQ1 neural surrogate を学習して黒箱勾配推定の低分散コントロール変数として機能させることができるか？
RQ2 REINFORCE と再パラメータ化を訓練可能な代理子と統合して、不偏性を保ちつつ分散を低減できるか？
RQ3 continuous relaxations and conditional reparameterization を用いて離散変数へ拡張できるか？
RQ4 学習したコントロール変数は、既存の推定器と比較して離散潜在変数の訓練と RL タスクでどう機能するか？

主な発見

微分可能な代理ベースの勾配推定量（LAX）は、REINFORCE と再パラメータ化を結合することにより、分散を低減する可能性を持つ不偏勾配を提供する。
モデルパラメータと代理コントローラを共同最適化することで勾配分散を直接最小化できる。
DLAX および RELAX は、緩和と条件付き再パラメータ化を用いて離散変数の不偏で低分散の推定量を提供し、離散 VAE と RL タスクの性能を改善する。
経験的結果は、MNIST/Omniglot の離散 VAE のトレーニング速度と収束、RL 環境でのサンプル効率の向上を示している。
RELAX、学習可能な代理を許す RELAX は、報告された実験で収束速度の点で REBAR などの以前の手法を上回ることがある。
このフレームワークは、微分可能な緩和が利用できない黒箱目的にも勾配推定を一般化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。