Skip to main content
QUICK REVIEW

[論文レビュー] Primal-Dual $π$ Learning: Sample Complexity and Sublinear Run Time for Ergodic Markov Decision Problems

Mengdi Wang|arXiv (Cornell University)|Oct 17, 2017
Reinforcement Learning in Robotics参考文献 18被引用数 35
ひとこと要約

本稿では、価値関数と方策の間の線形双対性を活用して、無限時刻平均報酬マルコフ決定過程(MDP)を解くモデルフリー強化学習手法「Primal-Dual π Learning」を提案する。この手法は、Õ((τ·t*_{mix})²|S||A|/ε²) の最適なサンプル複雑度と非線形実行時間(sublinear run time)を達成し、将来の報酬を割引くことなく、効率的な方策最適化を可能にする。

ABSTRACT

Consider the problem of approximating the optimal policy of a Markov decision process (MDP) by sampling state transitions. In contrast to existing reinforcement learning methods that are based on successive approximations to the nonlinear Bellman equation, we propose a Primal-Dual $π$ Learning method in light of the linear duality between the value and policy. The $π$ learning method is model-free and makes primal-dual updates to the policy and value vectors as new data are revealed. For infinite-horizon undiscounted Markov decision process with finite state space $S$ and finite action space $A$, the $π$ learning method finds an $ε$-optimal policy using the following number of sample transitions $$ ilde{O}( \frac{(τ\cdot t^*_{mix})^2 |S| |A| }{ε^2} ),$$ where $t^*_{mix}$ is an upper bound of mixing times across all policies and $τ$ is a parameter characterizing the range of stationary distributions across policies. The $π$ learning method also applies to the computational problem of MDP where the transition probabilities and rewards are explicitly given as the input. In the case where each state transition can be sampled in $ ilde{O}(1)$ time, the $π$ learning method gives a sublinear-time algorithm for solving the averaged-reward MDP.

研究の動機と目的

  • 無限時刻平均報酬MDPにおいて、人工的な割引を避けられるモデルフリー強化学習手法の開発を目的とする。
  • 収縮性の性質を欠くため、収束解析が複雑になる未割引MDPの分析の課題に対処することを目的とする。
  • 有限状態空間および行動空間における定常MDPを解くために、低サンプル複雑度と非線形実行時間の両方を達成することを目的とする。
  • 完全なMDPモデルが明示的に与えられている場合でも、計算が効率的であるような計算フレームワークを確立することを目的とする。
  • サンプル複雑度と実行時間複雑度が等しくなることを示し、最大の計算効率を反映することを目的とする。

提案手法

  • 新しい状態遷移が観測されるたびに、方策と価値ベクトルの推定値を同時に双対更新により改善する。
  • MDPにおける価値関数と方策の間の線形双対性に基づき、ベルマン方程式をサドルポイント問題に再定式化する。
  • アルゴリズムは確率的方策と補助的な価値ベクトルを維持し、サンプルされた遷移から導かれる確率的勾配を用いてそれらを更新する。
  • O(1)時間で状態-行動-報酬遷移を提供するサンプリングオракル(SO)を用い、効率的なオンライン学習を実現する。
  • K反復の確率的反復スキームを採用し、各反復で1つの遷移をサンプリングし、座標更新を行う。
  • 和集合の不等式と濃度不等式を用いて、最終方策のε-最適性が高確率で保証されるようにする。

実験結果

リサーチクエスチョン

  • RQ1モデルフリー強化学習手法は、割引を用いない平均報酬MDPを解く際に、非線形実行時間(sublinear run time)を達成できるか?
  • RQ2有限状態空間および行動空間における未割引定常MDPにおいて、ε-最適方策を学習するための最適なサンプル複雑度は何か?
  • RQ3混合時間(t*_{mix})と定常分布の範囲(τ)は、サンプル複雑度と実行時間複雑度にどのように影響を与えるか?
  • RQ4MDPの双対構造を活用して、サンプル複雑度と実行時間複雑度が一致する手法を設計できるか?
  • RQ5O((τ·t*_{mix})²|S||A|/ε²) のサンプル数と更新回数のみで、高確率でε-最適性を達成することは可能か?

主な発見

  • Primal-Dual π Learning は、定常MDPにおいてε-最適方策を求めるサンプル複雑度を Õ((τ·t*_{mix})²|S||A|/ε²) で達成する。
  • 状態遷移がO(1)時間でサンプリング可能な場合、入力サイズに対して非線形時間で実行され、具体的には Õ((τ·t*_{mix})²|S||A|/ε²) となる。
  • K=O(log(1/δ)) の反復を用いることで、ε-最適性が確率1−δ以上で保証され、方策評価と価値推定の高確率バウンドが得られる。
  • サンプル複雑度と実行時間複雑度は漸近的に等しくなるため、各サンプルが最大限の計算効率で利用されていることが示唆される。
  • 本手法は、未知のMDPを対象とする強化学習および、既知のモデルを対象とするMDP計算ソルブィングの両方で適用可能であり、広範な適用可能性を示している。
  • 理論的解析により、本手法は割引係数の必要性を回避しながらも、強力な収束保証を維持できることを示しており、従来手法の主要な制限を克服している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。