QUICK REVIEW

[論文レビュー] Generalized Planning With Deep Reinforcement Learning

Or Rivlin, Tamir Hazan|arXiv (Cornell University)|May 5, 2020

AI-based Problem Solving and Planning参考文献 29被引用数 24

ひとこと要約

本稿では、グラフニューラルネットワーク（GNN）を用いた深層強化学習アプローチを提案し、学習インスタンスの規模とは比べ物にならないほどの大規模計画問題を解く一般化された計画方策を学習することを目的としている。ポリシー勾配法を用いて反応型方策を訓練し、それをゴール制限付き探索アルゴリズム（GBFS-GNN）に統合することで、展開状態のスケーラビリティが著しく向上し、最新の古典的プランナーよりも競争力のある実行時間で、学習データとは桁違いに大きなインスタンスに対しても優れた性能を発揮する。

ABSTRACT

A hallmark of intelligence is the ability to deduce general principles from examples, which are correct beyond the range of those observed. Generalized Planning deals with finding such principles for a class of planning problems, so that principles discovered using small instances of a domain can be used to solve much larger instances of the same domain. In this work we study the use of Deep Reinforcement Learning and Graph Neural Networks to learn such generalized policies and demonstrate that they can generalize to instances that are orders of magnitude larger than those they were trained on.

研究の動機と目的

学習時に見たことのないインスタンスよりもはるかに大きなインスタンスを解ける一般化計画方策を学習する方法を開発すること。
適切なインダクティブバイアスを備えたグラフニューラルネットワークが、古典的計画における強化学習における有効な一般化を可能にするかを調査すること。
学習済みの反応型方策を活用して、最小限の探索作業で大規模計画インスタンスを効率的に解くことができる探索アルゴリズムを設計すること。
深層強化学習方策の一般化能力を、特に古典的プランナーよりも比較して、多様な計画ドメインで評価すること。
特に連携が強いドメイン（例：Logistics）において一般化性能に影響を与えるアーキテクチャ的およびトレーニング要因を同定すること。

提案手法

本手法は、環境との相互作用から直接学習する確率的で反応型の方策を、ポリシー勾配法を用いて深層強化学習で訓練する。この際、グラフ構造のインダクティブバイアスを持つニューラルネットワークを用いる。
状態の計画問題は、ノードが対象を表し、エッジが関係を表すグラフとしてGNNで符号化され、構造的一般化を可能にする。
有限時間枠内で累積報酬を最大化するという目的のもと、報酬関数を用いてゴール状態への進行を促進するように、モンテカルロロールアウトを用いてポリシーを訓練する。
GBFS-GNNは、学習済み方策をヒューリスティクスとして用いる探索アルゴリズムであり、グリーディなロールアウトと制限付き探索を組み合わせることで、大規模な状態空間を効率的に探索する。
PyperplanおよびFast Downwardに基づく後続状態生成子と合法アクションフィルタを用いることで、正しさと標準PDDL計画ドメインとの互換性を保証する。
トレーニングプロセスは最適解や手作業で設計されたヒューリスティクスに依存せず、環境からのフィードバックのみを用いて、完全にゼロから学習する。

実験結果

リサーチクエスチョン

RQ1GNNを用いた深層強化学習は、学習分布より桁違いに大きなインスタンスに対しても一般化可能な計画方策を学習できるか？
RQ2GNNアーキテクチャのインダクティブバイアスは、計画方策における一般化の出現にどのように影響するか？
RQ3どの計画ドメインで学習済み方策が一般化に失敗するのか。また、その失敗の背後にあるドメインの構造的特徴は何か？
RQ4高性能な反応型方策を活用する探索アルゴリズムは、後続状態生成が遅くても、状態空間の展開量において古典的プランナーよりも優れるか？
RQ5Logisticsのような高レベルで結合されたドメインにおいて、一般化性能を向上させるためにアーキテクチャ的またはトレーニングの修正はどのようなものか？

主な発見

GBFS-GNNは5つのドメインのうち4つで展開状態の観点から優れた成功確率を達成し、効果的な方策一般化のおかげで優れたスケーラビリティを示した。
Blocksworldおよび他のドメインでは、方策自体が極めて効果的であったため、探索は最小限に抑えられ、しばしば数回のロールアウトで十分だった。これは強い一般化能力を示している。
Fast DownwardのC++実装よりも桁違いに遅い後続状態生成子を使用しても、GBFS-GNNは4つのドメインでFast Downwardと同等またはそれ以上の実行性能を達成した。
Logisticsドメインでは著しく性能を発揮できず、対象間の強い結合（例：共有のトラックや飛行機）が一般化を阻害した。これは、アーキテクチャ上の制限が原因である可能性がある。
Logisticsでの失敗は、方策が1つのゴールを完了するまで集中できていないことに起因しており、ゴールの持続性を強制するためのアーキテクチャ的修正が必要であることを示唆している。
結果から、適切なインダクティブバイアスを備えた深層強化学習は、最適解へのアクセスがなくても、人間が設計した戦略（例：すべてのブロックをアンスタックしてからリスタックする）のような一般原則を学習できる可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。