QUICK REVIEW

[論文レビュー] Stochastic Primal-Dual Methods and Sample Complexity of Reinforcement Learning

Yi‐Chen Chen, Mengdi Wang|arXiv (Cornell University)|Dec 8, 2016

Reinforcement Learning in Robotics参考文献 17被引用数 43

ひとこと要約

本稿では、有限時限および無限時限MDPにおけるモデルフリー強化学習のための確率的プライマルデュアル（SPD）手法を提案する。ベルマン方程式における双対性を活用することで、効率的で低記憶容量のオンライン学習が可能となる。有限時限MDPでは、O(|S|⁴|A|²H⁶σ²/ϵ² log(1/δ))のサンプルで高確率にϵ-最適方策を達成し、割引MDPではO(|S|⁴|A|²σ²/(1−γ)⁶ϵ² log(1/δ))のサンプルを要する。双対ギャップ解析とマルティングルの集中を用いて、タイトなサンプル複雑度境界を確立した。

ABSTRACT

We study the online estimation of the optimal policy of a Markov decision process (MDP). We propose a class of Stochastic Primal-Dual (SPD) methods which exploit the inherent minimax duality of Bellman equations. The SPD methods update a few coordinates of the value and policy estimates as a new state transition is observed. These methods use small storage and has low computational complexity per iteration. The SPD methods find an absolute-$ε$-optimal policy, with high probability, using $\mathcal{O}\left(\frac{|\mathcal{S}|^4 |\mathcal{A}|^2σ^2 }{(1-γ)^6ε^2} ight)$ iterations/samples for the infinite-horizon discounted-reward MDP and $\mathcal{O}\left(\frac{|\mathcal{S}|^4 |\mathcal{A}|^2H^6σ^2 }{ε^2} ight)$ for the finite-horizon MDP.

研究の動機と目的

遷移確率や報酬分布の完全な知識を必要とせず、理論的サンプル複雑度保証を達成するモデルフリーでスケーラブルな強化学習アルゴリズムの開発。
ベルマン方程式に内在するプライマルデュアル構造を、確率的サドルポイント問題として定式化することによる活用。
ストリーミング状態遷移から得られるオンライン学習に適した、1イテレーションあたりの計算コストおよび記憶コストが低い確率的プライマルデュアルアルゴリズムの設計。
双対ギャップに対する確率的集中技術を用いて、有限時限および無限時限MDPの両方におけるタイトなサンプル複雑度境界の確立。
本手法が、問題パラメータの多項式関数としてのサンプル数で、高確率にϵ-最適方策を達成できることの実証。

提案手法

最適値関数と方策がそれぞれプライマルおよびデュアル解であるとみなすことで、ベルマン方程式を確率的サドルポイント問題として定式化する。
単一の状態遷移からのノイズのある部分勾配を用いて、リアルタイムに値関数と方策推定値を更新するSPD-dMDPおよびSPD-fMDPアルゴリズムを提案する。
妥当性を維持し、確率的設定下での収束を保証するため、特別に構築された集合への代替射影を用いる。
有限時限ケースでは、時間に依存する学習率戦略を採用し、初期段階の更新をより積極的に行い、誤差伝搬のバランスを取る。
双対ギャップの系列を分析し、構築されたマルティングルにベルンシュタインの不等式を適用して、期待収束速度の上限を導出する。
双対ギャップを方策のサブオプティマルさの代理指標として活用し、ギャップの収束が学習済み方策の近似誤差にどのように関連するかを結びつける。

実験結果

リサーチクエスチョン

RQ1モデルフリー強化学習におけるMDPに対して、最適なサンプル複雑度を達成する確率的プライマルデュアル手法を設計可能か？
RQ2ベルマン方程式に内在する双対性をどのように活用し、低記憶容量・低計算コストのオンライン学習アルゴリズムを設計できるか？
RQ3有限時限および割引MDPにおいて、確率的かつ逐次的更新を用いてϵ-最適方策を達成するための、最もタイトな可能なサンプル複雑度境界は何か？
RQ4有限時限MDPにおいて、収束性と最適なサンプル効率を確保するために、学習率を時間ステップに応じてどのように適応させるべきか？
RQ5双対ギャップは、学習済み方策のサブオプティマルさを直接的に上界付ける信頼性のある収束指標として使用可能か？

主な発見

SPD-dMDPアルゴリズムは、無限時限割引MDPにおいて、O(|S|⁴|A|²σ²/(1−γ)⁶ϵ² log(1/δ))回の反復で、確率1−δ以上でϵ-最適方策を達成する。
SPD-fMDPアルゴリズムは、H段階を持つ有限時限MDPにおいて、O(|S|⁴|A|²H⁶σ²/ϵ² log(1/δ))回の反復で、確率1−δ以上でϵ-最適方策を達成する。
サンプル複雑度境界はタイトであり、|S|、|A|、H、σ、1/ϵの問題パラメータに関して多項式的であり、1/δに関して対数的依存性を示す。
双対ギャップの系列がO(1/√T)の速度で収束することが示され、与えられた条件下で期待される方策のサブオプティマルさがO(1/√T)の速度で減少することを示唆する。
分析により、双対ギャップが∞-ノルムでの方策サブオプティマルさを上界付けることが確立され、ギャップから値関数誤差に至る要因としてH²のスケーリングが関与する。
本手法は非線形空間複雑度を達成する：割引MDPではO(|S||A|)、有限時限MDPではO(|S||A|H)であり、大規模な状態行動空間に対してもスケーラブルである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。