QUICK REVIEW

[論文レビュー] Gradient Estimators for Implicit Models

Yingzhen Li, Richard E. Turner|arXiv (Cornell University)|May 19, 2017

Markov Chains and Monte Carlo Methods参考文献 58被引用数 35

ひとこと要約

本稿では、尤度が計算不能なimplicit確率的モデルを訓練するための新しい手法、Stein勾配推定器を紹介する。この手法は、計算不能な尤度を近似せずに、スコア関数（対数密度勾配）を直接推定することで、勾配フリーMCMC、ベイジアンニューラルネットワークのメタラーニング、エントロピー正則化GANの安定的かつ高品質な訓練を可能にする。実験結果では、スコアマッチングやKDEベースの推定器と比較して、より優れたサンプルの多様性と安定性を示している。

ABSTRACT

Implicit models, which allow for the generation of samples but not for point-wise evaluation of probabilities, are omnipresent in real-world problems tackled by machine learning and a hot topic of current research. Some examples include data simulators that are widely used in engineering and scientific research, generative adversarial networks (GANs) for image synthesis, and hot-off-the-press approximate inference techniques relying on implicit distributions. The majority of existing approaches to learning implicit models rely on approximating the intractable distribution or optimisation objective for gradient-based optimisation, which is liable to produce inaccurate updates and thus poor models. This paper alleviates the need for such approximations by proposing the Stein gradient estimator, which directly estimates the score function of the implicitly defined distribution. The efficacy of the proposed estimator is empirically demonstrated by examples that include meta-learning for approximate inference, and entropy regularised GANs that provide improved sample diversity.

研究の動機と目的

尤度が計算不能であり、標準的な勾配ベースの手法が機能しないimplicit確率的モデルの訓練という課題に対処すること。
尤度や最適化目的関数の近似に依存することを排除し、不安定な訓練や性能の劣化を回避すること。
implicitに定義された分布のスコア関数を直接推定できる汎用的勾配推定器を開発すること。
最大尤度推定、変分ベイズ推論、MCMCといった確立された推論手法をimplicitモデルに適用可能にする。
特にGANや近似的ベイジアン推論において、サンプルの多様性と訓練の安定性を向上させること。

提案手法

スコアマッチングの一般化として、パラメトリックおよびノンパラメトリックな両形式に適用可能なStein勾配推定器を提案する。
Epanechnikovカーネルを用いたカーネルベース推定により、サンプルからスコア関数を計算し、境界条件を満たすようにする。
U統計量の定式化を用いることで、高次元設定における推定の一貫性を向上させ、分散を低減する。
GANやMCMCフレームワークにおいて、勾配ベース最適化を用いてimplicitモデルを訓練する際に推定器を適用する。
エントロピー正則化GAN（例：BEGAN）に推定器を統合し、多様なサンプル生成を促進する。
パラメトリック変換 $\bm{x} = \bm{f}_{\bm{\theta}}(\bm{z})$ を用いた微分可能な生成プロセスを採用し、生成器を介したバックプロパゲーションを可能にする。

実験結果

リサーチクエスチョン

RQ1計算不能な尤度を近似せずに、implicitモデル向けに直接的なスコア関数推定器を構築できるか？
RQ2訓練の安定性とサンプル品質という観点で、Stein勾配推定器はスコアマッチングやKDEプラグイン推定器と比べてどのように異なるか？
RQ3Stein推定器は、勾配フリーMCMCやベイジアンニューラルネットワークにおける近似的事後分布サンプリングのためのメタラーニングを効果的に可能にするか？
RQ4Stein推定器を用いたエントロピー正則化により、画像の品質を損なわずGANにおけるサンプルの多様性が向上するか？
RQ5提案された推定器は、最小限の計算コスト増で既存のGANフレームワークに効率的に適用可能か？

主な発見

Stein勾配推定器は、エントロピー正則化BEGANにおいて、スコアマッチングおよびKDEベース推定器と比較して、すべての定量的指標で顕著なサンプル多様性の向上を達成した。
MNISTのインセプションスコア指標において、SteinベースのGANが最高スコアを記録し、他手法と比べて大きな差を示した。これは、より現実的で多様なサンプルを生成できることを示している。
Stein推定器は、隣接ラベルベクトルのエントロピーが最大の0.95を記録し、最近隣接点との平均 $l_1$ 距離が最小の1.82を達成した。これは、高い多様性と一般化性能を示している。
3つの手法（Stein、スコア、KDE）とも訓練速度はほぼ同等（約10.3秒/エポック）であり、エントロピー正則化が計算コストをほとんど増加させないことを示している。
KDEベース手法は最近隣接点との $l_1$ 距離が最小であったが、これはトレーニングデータの記憶（memorization）の傾向を示しており、Stein推定器はこの問題を回避した。
提案手法により、勾配フリーMCMCおよびベイジアンニューラルネットワークのための事後分布サンプリング用メタラーニングの安定的訓練が可能となり、GANにとどまらない広範な応用可能性が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。