QUICK REVIEW

[論文レビュー] Reducing Reparameterization Gradient Variance

Andrew C. Miller, Nicholas J. Foti|arXiv (Cornell University)|May 22, 2017

Machine Learning and Algorithms被引用数 40

ひとこと要約

本稿では、再パラメータ化勾配推定器の分散低減手法を提案する。この手法は、勾配推定器の生成プロセスの線形近似を通じて制御変数を構築する。本手法は勾配ノルムにおいて最大2,000倍の分散低減を達成し、標準的なMCVIに比べて計算コストの増加が最小限であるにもかかわらず、より高速かつ安定した最適化を可能にする。

ABSTRACT

Optimization with noisy gradients has become ubiquitous in statistics and machine learning. Reparameterization gradients, or gradient estimates computed via the "reparameterization trick," represent a class of noisy gradients often used in Monte Carlo variational inference (MCVI). However, when these gradient estimators are too noisy, the optimization procedure can be slow or fail to converge. One way to reduce noise is to use more samples for the gradient estimate, but this can be computationally expensive. Instead, we view the noisy gradient as a random variable, and form an inexpensive approximation of the generating procedure for the gradient sample. This approximation has high correlation with the noisy gradient by construction, making it a useful control variate for variance reduction. We demonstrate our approach on non-conjugate multi-level hierarchical models and a Bayesian neural net where we observed gradient variance reductions of multiple orders of magnitude (20-2,000x).

研究の動機と目的

モンテカルロ変分ベイズ推論（MCVI）における再パラメータ化勾配推定器の高い分散が最適化を遅くし、収束を妨げるという問題に対処すること。
サンプル数を増加させないまま勾配の分散を低減することにより、単純なモンテカルロ平均化のO(1/√N)収束レートを回避すること。
勾配推定器の既知の確率的生成プロセスを活用した、計算効率の良い制御変数を開発すること。
非共役な階層モデルおよびベイズニューラルネットワークにおける最適化の安定性と収束速度を向上させること。
標準的な分散低減手法が費用がかかりすぎたり、適用不可能な複雑なモデルに対しても、低分散勾配推定の適用範囲を拡大すること。

提案手法

再パラメータ化プロセスにおける確率的ノイズ源に関して、勾配推定器を線形関数として解析的に近似することで制御変数を構築する。
ヘッセ・ベクトル積（HVP）と局所的線形近似を用いて、勾配のための低コストで相関の高い制御変数を計算する。
単純なモンテカルロ勾配推定値と制御変数を線形結合することで、不偏性を保ちつつ分散を低減する。
勾配が潜在変数サンプルにどのように依存するかを明示的にモデル化できるガウス型変分分布に本手法を適用する。
完全なヘッセ行列の計算を避けるために、局所的ヘッセ近似を用いて効率的に制御変数を計算する。
ウォールクロック時間とELBO収束指標を用いて、Adam最適化法を用いて非共役な階層モデルおよびベイズニューラルネットワークで本手法を検証する。

実験結果

リサーチクエスチョン

RQ1勾配推定器の生成プロセスの線形近似から得られる制御変数が、再パラメータ化勾配の分散を顕著に低減できるか？
RQ2本手法は、単純なモンテカルロ平均化と比較して、収束速度と最適化の安定性において優れているか？
RQ3局所的近似を用いたヘッセ・ベクトル積が、対角ヘッセ近似よりも分散低減において優れている程度はどの程度か？
RQ4本手法は、階層モデルやベイズニューラルネットワークといった異なるモデルタイプに対しても有効性を維持するか？
RQ5サンプル数を増加させることなく、本手法が勾配の分散を複数桁のオーダーで低減できるか？

主な発見

フリスク階層モデルにおいて、本手法は勾配推定器のノルムにおいて最大2,000倍の分散低減を達成した。最適化の進行度合いに応じて、20倍から3,000倍の範囲で分散低減が観察された。
ベイズニューラルネットワークでは、HVP+Local推定器が全パラメータ勾配のノルムにおいて100〜5,000倍の分散低減を達成し、L=50の純粋なモンテカルロ推定器を著しく上回った。
平均パrameterの分散低減には完全なヘッセ・ベクトル積が不可欠であり、対角ヘッセ近似のみでは分散低減が2〜5倍にとどまった。
最適化の後段階では、HVP+Local手法がスケールパラメータに対して顕著な分散低減を維持していたが、完全なヘッセ推定器が依然として優れており、局所的近似に起因する残存ノイズが示された。
最適化の軌道を観察したところ、HVP+Local推定器は純粋なモンテカルロ推定器よりも少ないサンプル数（例：L=10 vs. L=50）でも、より速くかつノイズの少ない収束を示した。
本手法によりウォールクロック時間における収束が高速化され、ベイズニューラルネットワークモデルではL=10のHVP+Local推定器がL=50のモンテカルロ推定器を上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。