QUICK REVIEW

[論文レビュー] Mean-Variance Optimization in Markov Decision Processes

Shie Mannor, John N. Tsitsiklis|arXiv (Cornell University)|Apr 29, 2011

Reinforcement Learning in Robotics参考文献 19被引用数 44

ひとこと要約

本稿は、有限時間ホライズンのマルコフ決定過程（MDP）における平均・分散最適化を研究し、平均・分散制約下での最適方策の計算が一般にNP困難または強NP困難であることを示している。制約付きおよび多目的定式化に対して擬似多項式時間の正確かつ近似アルゴリズムを提案するとともに、計算可能性の理論的限界を、複雑性の結果を通じて確立している。

ABSTRACT

We consider finite horizon Markov decision processes under performance measures that involve both the mean and the variance of the cumulative reward. We show that either randomized or history-based policies can improve performance. We prove that the complexity of computing a policy that maximizes the mean reward under a variance constraint is NP-hard for some cases, and strongly NP-hard for others. We finally offer pseudopolynomial exact and approximation algorithms.

研究の動機と目的

有限時間ホライズンMDPにおける平均・分散最適化の計算複雑性を分析すること。ここで、累積報酬の期待値とその分散の両方が考慮される。
確率的選択肢や履歴依存性を許容する方策クラスが、決定的またはマルコフ的方策よりも性能を向上させられるかどうかを調査すること。
分散制約下での期待報酬を最適化する方策、または逆に期待報酬制約下での分散を最適化する方策を計算する問題の取り扱いやすさを特定すること。
平均・分散MDPに対して、擬似多項式時間の正確および近似アルゴリズムを開発すること。
NP困難性および強NP完全性の結果を通じて、効率的計算の理論的限界を探索すること。

提案手法

累積報酬の平均と分散を同時に最適化するため、多基準および制約付きMDPフレームワークを用いる。
報酬の2次モーメントをモデル化するために、状態拡張技術を適用し、線形計画法の適用を可能にする。
パラメトリックアプローチを用いて、平均（例：固定）を固定し、残りの目的（例：分散）を最適化する。ラグランジュ緩和フレームワークを用いる。
有界な合理的報酬を仮定して、報酬空間における動的計画法に基づく擬似多項式時間アルゴリズムを開発する。
既知のNP完全問題（3-PartitionやKnapsackなど）への還元を通じて、NP困難性を証明する。特定のMDP構造下で、強NP困難性が成立する。
履歴依存、確率的、マルコフ的方策などの方策クラスを分析し、性能と複雑性を比較する。

実験結果

リサーチクエスチョン

RQ1分散制約下で期待報酬を最大化する方策を計算することは、NP困難または強NP困難か？
RQ2平均・分散MDPに対して、擬似多項式時間の正確または近似アルゴリズムを構築可能か？
RQ3確率的または履歴に基づく方策が、マルコフ的または決定的方策よりも、平均・分散最適化において厳密に優れているか？
RQ4均一な誤差バウンド内で、平均・分散トレードオフの最適値を計算する多項式時間または擬似多項式時間のアルゴリズムは存在するか？
RQ5最小または最大の可能な分散は、効率的に計算可能か？また、これらの極値を達成する方策タイプは何か？

主な発見

MDPにおける平均・分散最適化は一般にNP困難であり、特定のMDPパrameter化では強NP困難である。
報酬が整数である場合、分散制約下で期待報酬を最大化する方策を計算することは、強NP困難である。
有界な合理的報酬を仮定すれば、制約付きおよび多目的平均・分散問題に対して、擬似多項式時間の正確および近似アルゴリズムが存在する。
最小分散は常に決定的方策によって達成されるが、最大分散は一般に確率的方策によって達成される。
整数報酬の場合、分散最大化問題は多面体上での二次計画問題に還元され、擬似多項式時間で解ける。
結果は無限時間割引MDPに対しても拡張可能であり、尾部ホライズンの影響が小さくなるため、近似アルゴリズムを適応可能にできる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。