Skip to main content
QUICK REVIEW

[論文レビュー] Symbolic Generalization for On-line Planning

Zhengzhu Feng, Eric A. Hansen|arXiv (Cornell University)|Oct 19, 2012
Formal Methods in Verification参考文献 20被引用数 39
ひとこと要約

この論文では、個々の状態ではなく、状態のグループにわたり経験を一般化するための、記号的モデルチェック技術を用いたオンライン計画アルゴリズムである記号的リアルタイム動的計画法(sRTDP)を提案する。ヒューリスティックに基づく動的状態グループ化により、MDPにおける収束に必要な計算時間と現実世界の相互作用の回数を顕著に削減する。

ABSTRACT

Symbolic representations have been used successfully in off-line planning algorithms for Markov decision processes. We show that they can also improve the performance of on-line planners. In addition to reducing computation time, symbolic generalization can reduce the amount of costly real-world interactions required for convergence. We introduce Symbolic Real-Time Dynamic Programming (or sRTDP), an extension of RTDP. After each step of on-line interaction with an environment, sRTDP uses symbolic model-checking techniques to generalizes its experience by updating a group of states rather than a single state. We examine two heuristic approaches to dynamic grouping of states and show that they accelerate the planning process significantly in terms of both CPU time and the number of steps of interaction with the environment.

研究の動機と目的

  • 個々の状態の更新に依存しないようにすることで、MDPにおけるオンライン計画の効率を向上させること。
  • 実用的な計画シナリオにおける収束に必要な現実世界の相互作用の回数を減らすこと。
  • モデルチェック技術を用いた記号的一般化で、リアルタイム動的計画法(RTDP)を拡張すること。
  • 計画速度とスケーラビリティを向上させるために、動的状態グループ化のヒューリスティック手法を評価すること。

提案手法

  • 各環境相互作用後に個々の状態ではなく、状態のグループを記号的に更新することで、RTDPを拡張する。
  • 2値意思決定図(BDD)を用いて、集合としての状態を効率的に表現・操作するための記号的モデルチェック技術を採用する。
  • 価値関数の類似性または遷移構造に基づいて、状態を類似性に基づいて動的グループ化する2つのヒューリスティック手法を適用する。
  • 記号的一般化を用いて、全状態グループにわたる価値更新を伝搬させ、重複計算を削減する。
  • オンライン計画に記号的抽象化を統合することで、リアルタイム応答性を維持しながら収束性を向上させる。

実験結果

リサーチクエスチョン

  • RQ1記号的一般化は、MDPにおけるオンライン計画アルゴリズムの性能を向上させることができるか?
  • RQ2動的状態グループ化のヒューリスティックは、オンライン計画における収束速度と相互作用コストにどのように影響するか?
  • RQ3記号的モデルチェック技術は、RTDPにおける計算時間と現実世界の相互作用をどの程度削減できるか?
  • RQ4記号的一般化は、計画の加速を実現しながらも、解の品質を保持できるか?

主な発見

  • sRTDPは、状態グループ全体にわたる更新一般化により、標準的なRTDPと比較してCPU時間を顕著に削減する。
  • 記号的一般化のおかげで、収束に必要な環境相互作用の回数が大幅に削減される。
  • 2つのヒューリスティックに基づく動的グループ化手法は計画を加速させるが、そのうちの1つが速度および相互作用削減の両面で優れた性能を示す。
  • 記号的一般化は、複雑なMDPにおけるスケーラブルなオンライン計画を可能にしつつ、解の品質を保持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。