[論文レビュー] Achieving $\varepsilon^{-2}$ Dependence for Average-Reward Q-Learning with a New Contraction Principle
要約: 本論文は遅延変換と新しいインスタンス依存のセノルムを提案し、平均報酬ベルマン演算子を収束性を持たせることで、reachability仮定の下で ε^{-2} サンプル複雑性を達成し、同期・非同期の Q 学習を可能にする。
We present the convergence rates of synchronous and asynchronous Q-learning for average-reward Markov decision processes, where the absence of contraction poses a fundamental challenge. Existing non-asymptotic results overcome this challenge by either imposing strong assumptions to enforce seminorm contraction or relying on discounted or episodic Markov decision processes as successive approximations, which either require unknown parameters or result in suboptimal sample complexity. In this work, under a reachability assumption, we establish optimal $\widetilde{O}(\varepsilon^{-2})$ sample complexity guarantees (up to logarithmic factors) for a simple variant of synchronous and asynchronous Q-learning that samples from the lazified dynamics, where the system remains in the current state with some fixed probability. At the core of our analysis is the construction of an instance-dependent seminorm and showing that, after a lazy transformation of the Markov decision process, the Bellman operator becomes one-step contractive under this seminorm.
研究の動機と目的
- 平均報酬 MDP で収束性を仮定せずに最適ポリシーの学習を動機付ける。
- 最適ポリシーを保存し新規のセノルムの下で収束性を可能にする遅延変換を提案する。
- 同期・非同期 Q 学習の有限サンプル・最後の反復保証を導出する。
- 収束の仮定なしに reachability アサンプションの下で ε^{-2} サンプル複雑性が達成可能であることを確立する。
- 実用的な同期・非同期アルゴリズムと保証を提供する。
提案手法
- 遅延変換を遷移核に適用し、最適ポリシーを保存する変換されたベルマン方程式を得る。
- span セノルムと同じヌル空間を持つインスタンス依存のセノルム ˜sp を構築し、それの下でベルマン演算子の一段階収束を証明する。
- 明示的遅延サンプリングまたは陰遅延サンプリングのいずれかを用いる遅延 Q 学習の変種(同期・非同期)を定義・分析する。
- 変換後のベルマン演算子が ˜sp の下で収束することを示し、非漸近的・最後の反復誤差界を可能にする。
- 元のカーネル P から遅延推定値を用いて Q* を補正して回復する手法を提供する。
- 同期 Q 学習のサンプル複雑性境界を Ō(|S||A| ε^{-2})(対数因子のみ)まで、そして非同期バリアントの漸近的挙動を証明する。
実験結果
リサーチクエスチョン
- RQ1平均報酬 Q 学習はベルマン演算子の収束性を仮定せずに最適な ε^{-2} サンプル複雑性を達成できるか。
- RQ2遅延変換とインスタンス依存のセノルムの組み合わせは収束性を誘導し有限サンプル保証を可能にするか。
- RQ3reachability(Assumption 1)の下で同期・非同期遅延 Q 学習のサンプル複雑性はどうなるか。
- RQ4遅延変換された推定値から元の MDP の下で Q* と ε-最適ポリシーを回復するにはどうすればよいか。
- RQ5同期学習における明示的遅延サンプリングと陰遅延サンプリングのサンプル複雑性は同等か。
主な発見
- reachability の下で、遅延変換はインスタンス依存セノルム ˜sp に対するベルマン演算子の一段階収束をもたらす。
- 同期遅延 Q 学習はサンプル複雑性を Õ(|S||A| ε^{-2})(対数因子のみ)まで達成する。
- 2つの同期的バリエーション(明示的遅延サンプリングと陰遅延サンプリング)は定数の違いを除いて同一のサンプル複雑性を持つ。
- 非同期遅延 Q 学習は、明示的・陰遅延の両方のバリエーションで ε^{-2} のサンプル複雑性を達成し、混合性と定常確率に依存する境界がある。
- 最適平均報酬 g* は遅延変換によって保存され、Q* は遅延 Q 値から補正のある(加法定数を除き)形で回復できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。