QUICK REVIEW

[論文レビュー] Stochastic Particle Gradient Descent for Infinite Ensembles

Atsushi Nitanda, Taiji Suzuki|arXiv (Cornell University)|Dec 14, 2017

Stochastic Gradient Optimization Techniques参考文献 19被引用数 28

ひとこと要約

本稿では、連続的にパrameter化されたベース分類器の確率測度の空間上で最適化することにより、L¹および非負制約を正確に取り扱うことで、無限アンサンブル学習のための新規手法Stochastic Particle Gradient Descent (SPGD) を提案する。確率測度の空間に問題を定式化することにより、早期停止を伴わず、L¹および非負制約を厳密に処理でき、有限次元の非凸確率最適化と同等の収束速度を達成し、一般化性能および局所最適性に関する理論的保証を有する。

ABSTRACT

The superior performance of ensemble methods with infinite models are well known. Most of these methods are based on optimization problems in infinite-dimensional spaces with some regularization, for instance, boosting methods and convex neural networks use $L^1$-regularization with the non-negative constraint. However, due to the difficulty of handling $L^1$-regularization, these problems require early stopping or a rough approximation to solve it inexactly. In this paper, we propose a new ensemble learning method that performs in a space of probability measures, that is, our method can handle the $L^1$-constraint and the non-negative constraint in a rigorous way. Such an optimization is realized by proposing a general purpose stochastic optimization method for learning probability measures via parameterization using transport maps on base models. As a result of running the method, a transport map to output an infinite ensemble is obtained, which forms a residual-type network. From the perspective of functional gradient methods, we give a convergence rate as fast as that of a stochastic optimization method for finite dimensional nonconvex problems. Moreover, we show an interior optimality property of a local optimality condition used in our analysis.

研究の動機と目的

L¹制約を処理するために、近似正則化や早期停止に依存する従来のアンサンブル手法の限界を克服すること。
有限の組み合わせではなく、確率測度の空間における最適化によって、無限アンサンブル学習の厳密なフレームワークを構築すること。
有限の場合と同一の条件下で、無限アンサンブルに対する理論的収束保証および一般化バウンドを提供すること。
L²空間における輸送写像の関数的勾配降下の観点を確立し、連続的パrameter化を用いた確率最適化を可能にすること。
連続密度をもつ確率測度が局所最適性条件下で満たす内部最適性特性を示すこと。

提案手法

SPGDは、連続的にパrameter化されたベース分類器の集合上の確率測度の空間で最適化を実行し、L¹および非負制約を正確に処理する。
本手法は、各写像φが基本測度μ₀を目的測度μ = φ♯μ₀に変換する輸送写像を用いて確率測度をパラメータ化する。
確率的勾配更新は、写像φに対してφ⁺ ← φ + ξ∘φのルールに従い適用され、これは経験的リスク勾配から導かれる速度場に沿って測度を押し出すことに相当する。
この更新は、損失汎関数のFréchet微分を用いて計算される勾配に基づく、L²(μ₀)上の確率的関数的勾配降下として解釈される。
本手法は、Wasserstein空間P₂における勾配フローを離散化し、反復的な輸送写像更新によって測度の押し出しを近似することで実現する。
実用的な2つの変種が導入される：1つは測度を有限個の粒子で近似する（リサイクル型ネットワークに相当）、もう1つは再サンプリングを行わず、非重み付き投票分類の適切に初期化されたSGDと同等である。

実験結果

リサーチクエスチョン

RQ1無限アンサンブル学習を、近似正則化や早期停止を回避する確率測度の空間で厳密に定式化・最適化することは可能か？
RQ2L¹制約を伴う無限次元確率測度上で動作する確率的最適化手法の収束速度はどの程度か？
RQ3有限アンサンブルにおける一般化バウンドは、無限アンサンブルへどのように拡張可能か？また、経験的マージン分布の低減によって改善可能か？
RQ4輸送写像は、無限アンサンブルにおける関数的勾配降下をどのように可能にするか？また、リサイクルネットワークとはどのように関係するか？
RQ5連続密度をもつ確率測度がどのような条件下で局所最適性を達成し、どのような内部最適性特性を満たすか？

主な発見

SPGDは、無限次元の確率測度空間で動作しているにもかかわらず、有限次元非凸最適化と同等の収束速度を達成する。
本手法は、有限または可算アンサンブルとほぼ同一の一般化バウンドを提供し、経験的マージン分布の低減が改善されている。
連続密度をもつ確率測度の局所最適性条件が、内部最適性特性を示すことを示した。これは、適切な仮定のもとで、その測度が自身の台内で最適であることを意味する。
輸送写像の更新則φ⁺ ← φ + ξ∘φは、Wasserstein空間における勾配フローの自然な離散化を可能にし、本手法を連続時間ダイナミクスと結びつける。
SPGDの有限粒子近似はリサイクル型ニューラルネットワークを形成し、本手法にディープラーニング的解釈を提供する。
再サンプリングを行わないSPGDの変種は、非重み付き投票分類の適切に初期化されたSGDと同等であることが示され、古典的アンサンブル手法と新しいフレームワークの橋渡しを果たす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。