QUICK REVIEW

[論文レビュー] Decision-Theoretic Planning with Concurrent Temporally Extended Actions

Khashayar Rohanimanesh, Sridhar Mahadevan|arXiv (Cornell University)|Jan 10, 2013

Reinforcement Learning in Robotics参考文献 7被引用数 35

ひとこと要約

本稿では、要因分解されたマルコフ決定過程（factored MDP）において、時間的に拡張されたアクション（オプション）を並列に実行できる意思決定理論的計画枠組みを提案する。マーモフ的オプション制約下で並列オプションを準マルコフ決定過程（SMDP）としてモデル化することにより、SMDPアルゴリズムを用いた効率的な価値関数計算が可能となり、順次的オプション実行と比較してナビゲーションタスクにおける計画速度が向上することを示している。

ABSTRACT

We investigate a model for planning under uncertainty with temporallyextended actions, where multiple actions can be taken concurrently at each decision epoch. Our model is based on the options framework, and combines it with factored state space models,where the set of options can be partitioned into classes that affectdisjoint state variables. We show that the set of decisionepochs for concurrent options defines a semi-Markov decisionprocess, if the underlying temporally extended actions being parallelized arerestricted to Markov options. This property allows us to use SMDPalgorithms for computing the value function over concurrentoptions. The concurrent options model allows overlapping execution ofoptions in order to achieve higher performance or in order to performa complex task. We describe a simple experiment using a navigationtask which illustrates how concurrent options results in a faster planwhen compared to the case when only one option is taken at a time.

研究の動機と目的

複数の重複する時間的に拡張されたアクションを伴う不確実性下での計画の課題に対処すること。
オプションの並列実行を可能にし、計画の効率性とパフォーマンスを向上させること。
マーモフ的オプション制約下で並列オプションを準マルコフ決定過程（SMDP）として形式化すること。
複雑な要因分解された状態空間における価値関数計算に、既存のSMDPアルゴリズムを活用すること。
ナビゲーションタスクにおける並列実行の実証的利点を示すこと。

提案手法

枠組みは、各意思決定エポックにおいて複数のオプションを同時に実行できるように、オプションフレームワークを拡張する。
状態空間を要因分解し、互いに重複しない状態変数に影響を与えるクラスにオプションを分割する。
オプションがマーモフ的である場合、並列オプションの意思決定エポックの集合が正式に準マルコフ決定過程（SMDP）を形成することを示す。
価値関数計算には標準的なSMDPアルゴリズムを用い、効率的な計画を実現する。
複雑なタスクの達成やパフォーマンス向上を目的に、オプションの重複した実行をサポートする。
並列オプション実行の評価として、ナビゲーションタスクを事例として用いる。

実験結果

リサーチクエスチョン

RQ1意思決定理論的計画枠組み内での時間的に拡張されたアクションを、効果的に並列に実行できるか？
RQ2オプションの並列実行が、どのような条件下で準マルコフ決定過程（SMDP）を形成するか？
RQ3並列オプション実行は、順次的実行と比較して、計画パフォーマンスをどのように向上させるか？
RQ4要因分解された状態空間モデルと並列オプションを効果的に組み合わせ、スケーラブルな計画を可能にするか？
RQ5ナビゲーションタスクにおけるオプションの並列実行が、収束速度と解の品質に与える影響は何か？

主な発見

オプションがマーモフ的である場合、並列オプションモデルは有効な準マルコフ決定過程（SMDP）を形成し、SMDPアルゴリズムの適用が可能になる。
オプションの並列実行は、順次的実行と比較してナビゲーションタスクにおける計画生成速度を向上させる。
既存のSMDPソルバを活用することで、フレームワークは効率的な価値関数計算を実現する。
状態変数に影響を与えるオプションを、互いに重複しないクラスに分割することで、スケーラブルでモジュラーな計画が可能になる。
実証的結果から、並列実行が計画時間を短縮し、複雑なタスクにおけるパフォーマンスを向上させることを確認した。
理論的整合性を保ちながら、要因分解されたMDPにおける実用的で高性能な計画を実現している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。