QUICK REVIEW

[論文レビュー] Learning Domain-Independent Planning Heuristics with Hypergraph Networks

William Shen, Felipe Trevizan|arXiv (Cornell University)|Nov 29, 2019

AI-based Problem Solving and Planning参考文献 28被引用数 20

ひとこと要約

この論文は、削除緩和STRIPS問題のハイパーグラフ表現上でメッセージパッシングを実行することにより、ドメインに依存しない計画ヒューリスティクスを完全に新規に学習する、新しいハイパーグラフニューラルネットワークフレームワークであるSTRIPS-HGNsを紹介する。この手法は、LM-cutなどの最先端のヒューリスティクスと同等の性能を達成し、トレーニング中に見られなかったドメイン、例えばBlocksworldなども含む、未確認のドメインにうまく一般化する。

ABSTRACT

We present the first approach capable of learning domain-independent planning heuristics entirely from scratch. The heuristics we learn map the hypergraph representation of the delete-relaxation of the planning problem at hand, to a cost estimate that approximates that of the least-cost path from the current state to the goal through the hypergraph. We generalise Graph Networks to obtain a new framework for learning over hypergraphs, which we specialise to learn planning heuristics by training over state/value pairs obtained from optimal cost plans. Our experiments show that the resulting architecture, STRIPS-HGNs, is capable of learning heuristics that are competitive with existing delete-relaxation heuristics including LM-cut. We show that the heuristics we learn are able to generalise across different problems and domains, including to domains that were not seen during training.

研究の動機と目的

手動で設計された特徴量や既存のヒューリスティクスコンponentsに依存せずに、完全に新規から計画ヒューリスティクスを学習する手法を開発すること。
異なる問題インスタンス、特に物体数、初期状態、および目標が異なる状況においても、学習されたヒューリスティクスの一般化を可能にすること。
複数のドメインで学習し、未知のドメインで評価することで、既知のドメインを超えた一般化を実現すること。
サイズや構造が変動するハイパーグラフに対して、組合せ一般化を可能にするディープラーニングアーキテクチャを設計すること。
ハイパーグラフに基づくニューラルネットワークが、既存のドメイン特化ヒューリスティクスと同等に効果的で競争力のあるヒューリスティクスを学習できることを示すこと。

提案手法

著者らは、ハイパーグラフに一般化されたグラフネットワークであるハイパーグラフネットワーク（HGNs）を導入し、複数の頂点を接続するハイパーエッジ上でメッセージパッシングを可能にする。
STRIPS-HGNsは、削除緩和計画問題のハイパーグラフ表現の潜在空間を繰り返しメッセージを伝搬する再帰的エンコード・プロセス・デコードアーキテクチャを用いる。
モデルは最適な計画から得られる状態/価値ペアに基づいて学習され、ハイパーグラフ構造を正確なヒューリスティクスコスト推定値にマッピングする能力を学ぶ。
ハイパーグラフ表現は、命題を頂点として、アクションを前提条件から効果を結ぶハイパーエッジとしてエンコードする。
異なる数の頂点やハイパーエッジを持つハイパーグラフ間で不変な表現を学習することで、組合せ一般化をサポートする。
従来のモデル（例：ASNet）に見られる固定受容フィールドの制限を避けることで、長距離推論が可能になる。

実験結果

リサーチクエスチョン

RQ1ディープラーニングモデルは、既存のヒューリスティクスコンponentsに依存せずに、完全に新規からドメインに依存しない計画ヒューリスティクスを学習できるか？
RQ2学習されたヒューリスティクスは、既知のドメイン内において、問題のサイズ、初期状態、目標、オブジェクト集合が異なる状況でも一般化できるか？
RQ3Gripper や Zenotravel といった他のドメインでの学習のみで、Blocksworld といった未確認ドメインに一般化できるか？
RQ4ノード展開数と計画効率の観点から、$h^{max}$、$h^{add}$、および LM-cut といった既存のヒューリスティクスと比較して、学習されたヒューリスティクスの性能はどの程度か？
RQ5未知のドメインに適用した場合、モデルの性能はどの程度低下するか。また、探索のための意味のある指針を提供し続けられるか？

主な発見

STRIPS-HGNsは、トレーニングドメインにおけるA*のノード展開数という観点から、$h^{max}$、$h^{add}$、および LM-cut と同等の性能を示すヒューリスティクスを学習する。
学習されたヒューリスティクス $h^{HGN}$ は、既知のドメイン内において、物体数や目標が異なるさまざまな問題インスタンスに効果的に一般化する。
Gripper と Zenotravel で学習した $h^{HGN}$ は、未確認ドメインである Blocksworld に一般化でき、ノード展開数の観点で $h^{max}$ やブラインドサーチを上回る。
未確認ドメインでは、Gripper では有界ヒューリスティクスと同等に性能を発揮し、Zenotravel では $h^{max}$ よりも優れているが、$h^{add}$ や LM-cut には劣る。
ヒューリスティクス推定値 $h^{HGN}$ は、最適な計画長さからわずかにしかずれていないため、優れた近似品質を示している。
有望な結果が得られたが、現在の実装では推論コストが高く（1回の評価あたり約0.01〜0.02秒）、効率性の最適化の余地がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。