Skip to main content
QUICK REVIEW

[論文レビュー] Policy Iteration for Factored MDPs

Daphne Koller, Ronald Parr|arXiv (Cornell University)|Jan 16, 2013
Reinforcement Learning in Robotics参考文献 10被引用数 151
ひとこと要約

本稿では、構造的因子分解を有する動的システムを対象とした、要因分解されたマルコフ決定過程(MDP)のための新しい方策反復アルゴリズムを提案する。この手法は、任意の重み付けにおいて値関数の閉形式最小二乗近似を用いることで、効率的かつ高精度な方策改善を可能にする。本手法は、分解された基底関数と変数削除に基づく誤差バウンドを活用し、コンactな方策表現と構造的ダイナミクスを有する大規模MDPのスケーラブルな解法を実現する。

ABSTRACT

Many large MDPs can be represented compactly using a dynamic Bayesian network. Although the structure of the value function does not retain the structure of the process, recent work has shown that value functions in factored MDPs can often be approximated well using a decomposed value function: a linear combination of <i>restricted</i> basis functions, each of which refers only to a small subset of variables. An approximate value function for a particular policy can be computed using approximate dynamic programming, but this approach (and others) can only produce an approximation relative to a distance metric which is weighted by the stationary distribution of the current policy. This type of weighted projection is ill-suited to policy improvement. We present a new approach to value determination, that uses a simple closed-form computation to directly compute a least-squares decomposed approximation to the value function <i>for any weights</i>. We then use this value determination algorithm as a subroutine in a policy iteration process. We show that, under reasonable restrictions, the policies induced by a factored value function are compactly represented, and can be manipulated efficiently in a policy iteration process. We also present a method for computing error bounds for decomposed value functions using a variable-elimination algorithm for function optimization. The complexity of all of our algorithms depends on the factorization of system dynamics and of the approximate value function.

研究の動機と目的

  • 近似動的プログラミングにおける重み付き射影法の限界、特に要因分解MDPにおける方策改善に不適切である点を是正すること。
  • ダイナミクスと値関数表現における構造的因子分解を活用することで、大規模MDPにおける効率的な方策反復を可能にすること。
  • 現在の方策の定常分布に依存しない値関数近似手法を構築し、直接的な方策改善を可能にすること。
  • 関数最適化における変数削減技術を用いて、分解された値関数の誤差バウンドを厳密に導出すること。
  • 方策反復プロセス全体を通じて、要因分解された値関数から得られる方策が、コンパクトに表現可能で操作可能であることを保証すること。

提案手法

  • 任意の重み付けに対して、現在の方策の定常分布に依存しない閉形式の最小二乗計算を提案し、これにより方策依存の分布に依存しない値関数近似を実現する。
  • 各状態変数の小さな部分集合にのみ依存する制限付き基底関数の線形結合として、分解された値関数表現を用いる。
  • 近似値関数の誤差バウンドを計算するために、変数削減アルゴリズムを適用し、近似品質に対する理論的保証を確保する。
  • 値関数決定サブルーチンを方策反復フレームワークに統合し、コンパクトな方策表現を維持したまま反復的な方策改善を可能にする。
  • MDPの遷移関数および報酬関数を要因分解表現で保持することで、計算効率を維持する。
  • 関数最適化による変数削減を用い、真の値関数とその要因分解近似との間の誤差をバウンドする。

実験結果

リサーチクエスチョン

  • RQ1任意の重み付けに対して、現在の方策の定常分布に依存しない閉形式の値関数近似が可能か。これにより、信頼性の高い方策改善が可能になるか。
  • RQ2要因分解MDPを、方策および値関数表現のコンパクト性を保ちつつ、どのように効率的に解けるか。
  • RQ3要因分解MDPにおける値関数近似および方策反復の計算複雑性は何か。また、因子分解構造にどのように依存するか。
  • RQ4関数最適化技術を用いて、要因分解された値関数近似の誤差バウンドを効率的に計算できるか。
  • RQ5近似値関数を用いた方策反復において、方策の構造的コンパクト性を維持することは可能か。

主な発見

  • 提案手法により、任意の重み付けに対して、方策依存の定常分布に依存しない閉形式の最小二乗値関数近似が直接計算可能である。
  • 新規の値関数決定手法を用いた方策反復により、大規模な要因分解MDPにおいても、コンパクトに表現可能で効率的に操作可能な方策が得られる。
  • 関数最適化における変数削減を活用することで、近似値関数に対する厳密な誤差バウンドを導出可能である。
  • すべてのアルゴリズムの計算複雑性は、システムダイナミクスおよび値関数基底の因子分解構造に比例し、大規模問題の効率的処理を可能にする。
  • 本手法は、要因分解された値関数が方策反復において効果的に利用可能であることを示しており、従来の近似動的プログラミング手法の限界を克服する。
  • 本手法は、要因分解された値関数基底で表現可能な方策のクラス内での最適方策への収束を保証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。