QUICK REVIEW

[論文レビュー] Composable Planning with Attributes

Amy Zhang, Adam Lerer|arXiv (Cornell University)|Mar 1, 2018

Reinforcement Learning in Robotics参考文献 38被引用数 26

ひとこと要約

本稿では、ユーザー定義の属性を用いて環境状態を表現し、事前に学習したポリシーを組み合わせることで、複雑なタスクに対するゼロショット一般化を可能にする、組み立て可能な計画フレームワークを提案する。属性集合間の遷移を学習するポリシーを訓練し、Dijkstraのアルゴリズムを用いた遷移グラフによる経路探索を実行することで、3Dブロック積み上げ、グリッドワールド、StarCraftにおいて、推論時にタスク固有の強化学習を用いずに成功を達成した。

ABSTRACT

The tasks that an agent will need to solve often are not known during training. However, if the agent knows which properties of the environment are important then, after learning how its actions affect those properties, it may be able to use this knowledge to solve complex tasks without training specifically for them. Towards this end, we consider a setup in which an environment is augmented with a set of user defined attributes that parameterize the features of interest. We propose a method that learns a policy for transitioning between "nearby" sets of attributes, and maintains a graph of possible transitions. Given a task at test time that can be expressed in terms of a target set of attributes, and a current state, our model infers the attributes of the current state and searches over paths through attribute space to get a high level plan, and then uses its low level policy to execute the plan. We show in 3D block stacking, grid-world games, and StarCraft that our model is able to generalize to longer, more complex tasks at test time by composing simpler learned policies.

研究の動機と目的

エージェントがタスク固有の強化学習を用いずに、未観測の複雑なタスクに一般化できるようにすること。
単純で事前に学習されたポリシーを組み合わせて、新しいタスクの高レベル計画を構成する手法を開発すること。
タスク関連の環境的性質を捉えることのできる、手動で定義された属性を状態抽象化として使用すること。
環境の報酬なしに、属性状態間の遷移確率を学習するモデルを訓練すること。
テスト時に、学習済みの遷移のグラフと低レベルポリシーを用いて属性空間で計画を実行すること。

提案手法

属性は、ラベル付きの(状態, 属性)ペアで学習されたニューラルネットワークによって状態から検出される。
探索的ポリシーが経験を収集し、属性集合間の初期の遷移回数グラフを構築する。
スパarsな報酬（目的の属性集合に到達した場合に1、それ以外は0）を用いて強化学習により低レベルのゴール条件付きポリシーを訓練する。
遷移表 $ c_{/pi} $ が維持され、これは成功した遷移回数を試行回数で割ったものとして、属性集合間の成功確率を表す。
テスト時に、Dijkstraのアルゴリズムを用いて、属性空間内で累積成功確率が最大となる経路を特定し、$ -\log c_{\\/pi} $ をエッジの重みとして使用する。
エージェントは、計算された経路の各ステップに対して、低レベルポリシーを順次適用することで計画を実行し、属性状態が逸脱した場合は再計画を行う。

実験結果

リサーチクエスチョン

RQ1エージェントは、単純で事前に学習されたポリシーを組み合わせることで、長時間スパンの複雑なタスクに一般化できるか？
RQ2ユーザー定義の属性は、組み立て可能な計画のための意味的な状態抽象化としてどれほど有効か？
RQ3スパarsな報酬とタスク固有のトレーニングなしの環境において、属性ベースの計画はどの程度一般化するか？
RQ4環境報酬なしのモデルベース計画アプローチでも、未学習のタスクで高い成功率を達成できるか？
RQ5複雑なアクションハイアラルキーを持つ実世界の環境（例：StarCraft）において、この手法はどの程度スケーラブルか？

主な発見

3Dブロック積み上げタスクにおいて、トレーニング時に学習した単一アクションポリシーを組み合わせることで、マルチステップタスクに成功して一般化した。
2Dグリッドワールド環境では、トレーニング時に観測したよりも長いタスクにおいても高い成功率を達成し、組み立て一般化の有効性を示した。
本手法はStarCraftのユニット建設タスクにも一般化でき、特定タスクの追加トレーニングなしに、複雑で長時間スパンのタスクを解決した。
学習済み遷移確率を用いたグラフベースの計画メカニズムにより、環境ダイナミクスが複雑であっても、頑健な経路探索が可能になった。
特に長時間にわたるアクション列を要するタスクにおいて、標準的な強化学習ベースラインを上回るゼロショット一般化性能を発揮した。
属性検出器とポリシーネットワークは、状態を抽象表現にマッピングし、高レベルの目標に基づいて行動を実行するのに有効であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。