QUICK REVIEW

[論文レビュー] Accelerating Stochastic Composition Optimization

Mengdi Wang, Ji Liu|arXiv (Cornell University)|Jul 25, 2016

Stochastic Gradient Optimization Techniques参考文献 17被引用数 24

ひとこと要約

本稿では、期待値の合成と非滑らか正則化を伴う確率的構成最適化のための、高速化された確率的構成近接勾配（ASC-PG）法を提案する。2つの時間スケールの更新と近接勾配ステップを活用することで、先行手法よりも高速な収束を達成し、特殊な場合には最適な $O(1/k)$ の収束速度を達成する。

ABSTRACT

Consider the stochastic composition optimization problem where the objective is a composition of two expected-value functions. We propose a new stochastic first-order method, namely the accelerated stochastic compositional proximal gradient (ASC-PG) method, which updates based on queries to the sampling oracle using two different timescales. The ASC-PG is the first proximal gradient method for the stochastic composition problem that can deal with nonsmooth regularization penalty. We show that the ASC-PG exhibits faster convergence than the best known algorithms, and that it achieves the optimal sample-error complexity in several important special cases. We further demonstrate the application of ASC-PG to reinforcement learning and conduct numerical experiments.

研究の動機と目的

2つの期待値関数の合成を含む確率的構成最適化問題に対して、効率的な1次最適化アルゴリズムを開発すること。
特にℓ₁ノルムのような非滑らか正則化項を扱えるように、近接勾配法を確率的構成最適化問題へと拡張すること。
従来の確率的構成勾配法よりも速い収束速度を達成すること、特にサンプル誤差複雑度の観点から。
滑らかさと凸性の一般的な仮定の下で理論的収束速度を確立すること。特殊な場合に最適な複雑度を達成することも含む。
強化学習とリスク回避的最適化への応用を通じて、実用的有用性を示すこと。

提案手法

ASC-PG法は、内側関数の推定を追跡する1つの時間スケールと、主変数を更新する別の時間スケールを持つ2時間スケールの更新戦略を採用する。
スパース最適化への適用を可能にするために、ℓ₁ノルムのような非滑らか正則化ペナルティを扱える近接勾配ステップを統合する。
内側関数 $g_w({f x})$ と外側関数 $f_v(g_w({f x}))$ の両方に対して不偏な確率的勾配推定値を用い、それぞれの時間スケールごとに別々のステップサイズを設定する。
2時間スケールの確率的近似にインspiredして、$g({f x})$ の推定と ${f x}$ の更新を分離することで、安定性と収束性を維持するように設計されている。
滑らかさの仮定（$f_v$ と $g_w$ の滑らかさ）と $R({f x})$ の凸性の下で、理論的収束速度の分析が行われている。
価値関数推定を確率的構成問題に変換するため、ベルマン方程式の定式化を介して強化学習に応用されている。

実験結果

リサーチクエスチョン

RQ1ℓ₁ノルムのような非滑らか正則化を伴う確率的構成最適化問題に対して、近接勾配法を設計できるか？
RQ22時間スケールの更新を用いた一般の確率的構成最適化問題に対して、確率的1次最適化法が達成できる収束速度は何か？
RQ3特殊な場合（例：内側関数が線形の場合）に、提案されたASC-PG法が最適なサンプル誤差複雑度を達成するか？
RQ4強化学習の文脈において、ASC-PG法はSCGD や GTD2-MP といった既存のアルゴリズムと比較して、実験的にどのように性能を発揮するか？
RQ5分散最小化を伴うリスク回避的学習問題に対しても、ASC-PG法は効果的に適用可能か？

主な発見

ASC-PG法は、期待値の最適でないギャップ $ ext{E}[H({f x}_k) - H({f x}^*)]$ に対して $O(1/k)$ の収束速度を達成しており、先行手法の最良の $O(1/k^{4/9})$ よりも速い。
内側関数 $g_w({f x})$ が線形である特殊な場合、ASC-PG法は理論的下界に一致する最適な $O(1/k)$ の収束速度を達成する。
数値実験では、Bairdの例（S=6）とより大きなMDP（S=100）の両方において、ASC-PGはSCGD や GTD2-MP よりも著しく速く収束し、$ ext{E}[ orm{{f w}_k - {f w}^*}]$ の減少が速いことが示された。
非ゼロ成分が4つのみの $oldsymbol{ heta}^*$ を持つスパース回復設定では、$oldsymbol{ heta}$-正則化を用いたASC-PGが、$ orm{{f w}_k - oldsymbol{ heta}^*}$ の急激な減少を通じてスパース解を的確に回復した。
反復回数と誤差の対数プロットでは、$O(1/k)$ の収束速度が実験的に確認され、傾きが-1に近く、理論的分析を裏付けるものとなった。
ASC-PG法は、非滑らか正則化を扱える確率的構成最適化問題に対する最初の近接勾配法であり、適用可能な最適化問題の範囲を広げた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。