Skip to main content
QUICK REVIEW

[論文レビュー] Non-asymptotic Analysis of Biased Stochastic Approximation Scheme

Belhal Karimi, Błażej Miasojedow|arXiv (Cornell University)|Feb 2, 2019
Stochastic Gradient Optimization Techniques参考文献 36被引用数 27
ひとこと要約

本稿は、非凸で滑らかな目的関数を最小化するための一般化されたバイアス付き確率的近似スキームの非漸近的収束解析を提示する。ドリフト項は状態に依存するマルコフ連鎖に依存し、平均場が勾配であるとは限らない。主な貢献は、きわめて弱い条件下でも定常点への収束速度保証を提供することであり、オンラインEM法や強化学習におけるポリシー勾配法への応用を拡張する。

ABSTRACT

Stochastic approximation (SA) is a key method used in statistical learning. Recently, its non-asymptotic convergence analysis has been considered in many papers. However, most of the prior analyses are made under restrictive assumptions such as unbiased gradient estimates and convex objective function, which significantly limit their applications to sophisticated tasks such as online and reinforcement learning. These restrictions are all essentially relaxed in this work. In particular, we analyze a general SA scheme to minimize a non-convex, smooth objective function. We consider update procedure whose drift term depends on a state-dependent Markov chain and the mean field is not necessarily of gradient type, covering approximate second-order method and allowing asymptotic bias for the one-step updates. We illustrate these settings with the online EM algorithm and the policy-gradient method for average reward maximization in reinforcement learning.

研究の動機と目的

  • 非凸設定におけるバイアス付き確率的近似スキームの非漸近的収束解析の不足を解消すること。
  • オンライン学習や強化学習における適用性を制限する、不偏勾配や凸性といった制限的な仮定を緩和すること。
  • 平均場が勾配であるとは限らず、漸近的にバイアスを有する一般化されたSAスキームを分析すること。
  • オンラインEM法やポリシー勾配法などのアルゴリズムに対して、最小限の安定性仮定のもとで収束速度の結果を提供すること。
  • 複雑な状態依存ダイナミクスを有する実用的オンライン学習アルゴリズムの理論的基盤を確立すること。

提案手法

  • 状態に依存するマルコフ連鎖に依存するドリフト項を有する一般化された確率的近似スキームを定式化すること。
  • マルコフ連鎖の定常分布上の期待値として平均場を定義し、漸近的バイアスを許容すること。
  • 滑らかなリャプノフ関数 $ V $ を用いて目的関数を特徴付け、ドリフトを勾配に関連付けること。
  • マルティングールおよびマルコフ連鎖の性質を活用して、$ V $ の期待減少の非漸近的解析により収束を確立すること。
  • ステップサイズのルールとノイズのモーメント条件を用いて、期待される最適性ギャップのバウンディングを導出すること。
  • 本フレームワークを2つの主要な応用に適用:オンラインEM法と平均報酬最大化のためのポリシー勾配法。

実験結果

リサーチクエスチョン

  • RQ1状態に依存するマルコフ連鎖を伴うバイアス付き確率的近似スキームに対して、非漸近的収束速度を確立できるか?
  • RQ21ステップ更新における漸近的バイアスが、非凸最適化における定常点への収束にどのように影響するか?
  • RQ3反復列が安定し、定常点の近傍に収束するための条件は何か?
  • RQ4提案されたフレームワークは、理論的保証のもとでオンラインEM法やポリシー勾配法に適用可能か?
  • RQ5一般なノイズ構造とバイアス構造のもとで、最適な収束速度を保証するステップサイズルールは何か?

主な発見

  • 本稿は、状態に依存するマルコフ連鎖を伴う一般化されたバイアス付き確率的近似スキームに対して、定常点への非漸近的収束速度を確立する。
  • ステップサイズとモーメントバウンディングに関する弱い条件下で、収束速度は $ O(1/ au) $ である。ここで $ au $ は反復回数を表す。
  • 解析は非凸で滑らかな目的関数に適用可能であり、凸性や不偏勾配の必要性を緩和する。
  • フレームワークはオンラインEM法とポリシー勾配法の両方をカバーし、コロナリー3.1では一般条件下でオンラインEM法に対する最初の既知の非漸近的レートを提供する。
  • 割引報酬推定子を用いたポリシー勾配法は、割引因子 $ \lambda $ に依存する収束速度を有し、バイアスは $ O(1 - \lambda) $ である。
  • 反復列のグローバル有界性を仮定せず、局所的安定性とリャプノフ関数解析に依存して結果が成り立つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。