QUICK REVIEW

[論文レビュー] Linear Programming for Large-Scale Markov Decision Problems

Yasin Abbasi-Yadkori, Peter L. Bartlett|arXiv (Cornell University)|Feb 27, 2014

Reinforcement Learning in Robotics参考文献 30被引用数 30

ひとこと要約

この論文は、状態行動ペair上の定常分布を用いて平均コスト問題を再定式化することにより、大規模なマルコフ決定過程（MDP）に対して計算的に効率的な線形計画法のアプローチを提案する。2つのアルゴリズム—確率的部分勾配最適化と制約サンプリング—を導入し、低次元の比較クラス内の最良の方策と同等の性能を達成するが、誤差バウンドは状態空間のサイズに依存せず、比較クラスのサイズにのみ依存する。

ABSTRACT

We consider the problem of controlling a Markov decision process (MDP) with a large state space, so as to minimize average cost. Since it is intractable to compete with the optimal policy for large scale problems, we pursue the more modest goal of competing with a low-dimensional family of policies. We use the dual linear programming formulation of the MDP average cost problem, in which the variable is a stationary distribution over state-action pairs, and we consider a neighborhood of a low-dimensional subset of the set of stationary distributions (defined in terms of state-action features) as the comparison class. We propose two techniques, one based on stochastic convex optimization, and one based on constraint sampling. In both cases, we give bounds that show that the performance of our algorithms approaches the best achievable by any policy in the comparison class. Most importantly, these results depend on the size of the comparison class, but not on the size of the state space. Preliminary experiments show the effectiveness of the proposed algorithms in a queuing application.

研究の動機と目的

大規模状態空間における正確な動的計画法の非実行可能性に対処すること。
最適方策ではなく、低次元の方策族内の最良のものと競合できるスケーラブルなアルゴリズムを開発すること。
計算複雑性と誤差バウンドにおいて状態空間サイズに依存しないようにすること。
新しい証明技術を用いて、比較クラスに対する性能に関する理論的保証を提供すること。

提案手法

変数として状態行動ペア上の定常分布を用いる双対線形計画問題として、平均コストMDP問題を再定式化する。
比較クラスを、状態行動特徴でパラメータ化された低次元の定常分布の部分集合の近傍として定義する。
制約違反をペナルティとするサロゲート損失関数を最小化することで、近似線形計画問題を解くための確率的部分勾配法を提案する。
計算コストを削減するために、単体制約と定常性制約をランダムにサンプリングする制約サンプリング技術を導入する。
解が有界かつ妥当になるように、ボックス制約を用いた正則化項を用いる。
制約違反と平均コストを組み合わせたサロゲート損失関数を用いて最適化を誘導する。

実験結果

リサーチクエスチョン

RQ1大規模MDPに対して、低次元の方策クラス内の最良のものと同等の性能を達成できるスケーラブルなアルゴリズムを設計できるか？
RQ2誤差バウンドを状態空間サイズではなく、比較クラスのサイズにのみ依存させられるか？
RQ3アルゴリズム設計において最適方策の知識やその分布からのサンプリングを必要としないか？
RQ4制約サンプリングは、大規模MDPにおける完全なLP解法の実用的で理論的根拠のある代替手段となり得るか？

主な発見

確率的部分勾配法は、比較クラス内の最良の方策と同等の平均損失性能を達成し、誤差バウンドが状態空間サイズに依存しない。
制約サンプリング法は、全制約の約1%をサンプリングした場合、ベースラインヒューリスティクス（LONGERおよびLBFS）よりも平均損失で1%の改善を達成した。
制約サンプリングの最適なサンプルサイズは、全単体制約の約4,684個（全体の約1%）であり、それより小さいまたは大きいサンプルサイズでは性能が低下した。
サンプルサイズが増加するにつれて、特に単体制約と定常性制約の活性化が増加するため、方策性能の分散が増加した。
以前のALP手法とは異なる近似空間（価値関数ではなく定常分布）を用いても、同様の設定でそれらを上回る性能を示した。
実証的結果により、サロゲート損失最小化が平均損失の低減を効果的に実現しており、ベースラインヒューリスティクスよりも低い損失に収束することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。