QUICK REVIEW

[論文レビュー] Practical Linear Value-approximation Techniques for First-order MDPs

Scott Sanner, Craig Boutilier|arXiv (Cornell University)|Jun 27, 2012

Reinforcement Learning in Robotics参考文献 20被引用数 32

ひとこと要約

本稿は、方策反復をサポートするように近似線形計画法（ALP）を拡張し、基礎関数を自動生成するとともに、普遍的に量化された報酬問題を分解することで、1次元マルコフ決定過程（FOMDP）における実用的な線形価値近似技術を導入する。本手法は、ドメインに依存しない学習と新しい最適化を用いることで、ICAPS 2004 ロジスティクス計画問題において、価値関数の質とスケーラビリティの両方を向上させる。

ABSTRACT

Recent work on approximate linear programming (ALP) techniques for first-order Markov Decision Processes (FOMDPs) represents the value function linearly w.r.t. a set of first-order basis functions and uses linear programming techniques to determine suitable weights. This approach offers the advantage that it does not require simplification of the first-order value function, and allows one to solve FOMDPs independent of a specific domain instantiation. In this paper, we address several questions to enhance the applicability of this work: (1) Can we extend the first-order ALP framework to approximate policy iteration to address performance deficiencies of previous approaches? (2) Can we automatically generate basis functions and evaluate their impact on value function quality? (3) How can we decompose intractable problems with universally quantified rewards into tractable subproblems? We propose answers to these questions along with a number of novel optimizations and provide a comparative empirical evaluation on logistics problems from the ICAPS 2004 Probabilistic Planning Competition.

研究の動機と目的

従来の1次元ALP手法の性能制限を克服するために、より優れた価値関数近似を得るための方策反復を統合する。
FOMDPにおける手動による特徴工学の依存度を低減するため、自動的基底関数生成を実現する。
普遍的に量化された報酬を有する扱いにくいFOMDPを、問題分解によって取り扱える部分問題に分解し、効率的な解法を可能にする。
ドメイン特化の簡略化なしに、1次元MDPのスケーラビリティと解の質を向上させる。
再訓練をドメインインスタンスごとに必要としない、一般化されたフレームワークを提供する。

提案手法

価値反復と方策反復をサポートするように1次元ALPを拡張し、政策改善ステップを組み込んだLP最適化の再定式化を実施する。
1次元論理構造と報酬述語に基づく基底関数生成法を導入し、関連する特徴を自動的に導出する。
論理的抽象化を用いて、取り扱いやすい部分問題に分割することで、普遍的に量化された報酬を処理するための分解戦略を適用する。
線形計画法を用いて、ベルマン誤差を状態空間全体で最小化するように、線形価値関数近似における最適な重みを求める。
論理的グランドイングと価値関数近似を統合されたフレームワーク内で統合し、1次元表現力を維持する。
ドメインに依存しない特徴テンプレートと論理パターンマッチングを活用し、大規模なFOMDPにおける基底関数生成のスケーラビリティを向上させる。

実験結果

リサーチクエスチョン

RQ11次元ALPフレームワークに方策反復を統合することで、価値関数近似の質が向上するか？
RQ21次元論理表現から基底関数を自動生成可能か？また、その影響は解の質にどのように現れるか？
RQ3普遍的に量化された報酬を有する扱いにくいFOMDPは、どのように取り扱える部分問題に分解できるか？
RQ4自動基底関数生成の影響は、収束速度と価値関数の正確さにどのように現れるか？
RQ5実世界のロジスティクス計画問題において、既存手法と比較して本手法のスケーラビリティとパフォーマンスはどのように異なるか？

主な発見

1次元ALPフレームワークに方策反復を統合することで、単なる価値反復と比較して、価値関数近似の質が顕著に向上する。
論理的構造に基づく自動生成基底関数は、手作業で作成したまたはランダムな基底関数よりも、価値関数の正確性と収束速度の両面で優れている。
論理的抽象化による問題分解により、従来直接解くことが不可能であった普遍的に量化された報酬を有するFOMDPも、取り扱えるようになる。
本手法は、ICAPS 2004 ロジスティクス計画問題において、競争力のあるパフォーマンスを達成し、複数のドメインインスタンスにわたってスケーラビリティと頑健性を示している。
フレームワークにより、特定のドメインインスタンスに依存せずにFOMDPを解くことが可能となり、1次元表現力を維持しつつ、高品質な方策を達成している。
実験的評価により、自動基底関数生成と分解の組み合わせが、ベースラインALP手法と比較して、より速い収束と低いベルマン誤差を実現していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。