[論文レビュー] Classical Planning in Deep Latent Space: Bridging the Subsymbolic-Symbolic Boundary
LatPlanは、変分オートエンコーダー(状態オートエンコーダー)を用いて、サブシンボリックな視覚入力を離散的かつ命題的な潜在空間に変換することで、非教師付きフレームワークを提案する。同時に、アクション記号とそのモデル(アクションオートエンコーダー/識別器)を共同で推論する。この手法により、人為的な記号的モデルなしに、rawな画像ペアからドメインに依存しない計画が可能となり、画像ベースの8パズル、ハノイの塔、LightsOutの領域で最適解を達成する。また、エンド・トゥ・エンドの視覚的計画実行可視化も実現している。
Current domain-independent, classical planners require symbolic models of the problem domain and instance as input, resulting in a knowledge acquisition bottleneck. Meanwhile, although deep learning has achieved significant success in many fields, the knowledge is encoded in a subsymbolic representation which is incompatible with symbolic systems such as planners. We propose LatPlan, an unsupervised architecture combining deep learning and classical planning. Given only an unlabeled set of image pairs showing a subset of transitions allowed in the environment (training inputs), and a pair of images representing the initial and the goal states (planning inputs), LatPlan finds a plan to the goal state in a symbolic latent space and returns a visualized plan execution. The contribution of this paper is twofold: (1) State Autoencoder, which finds a propositional state representation of the environment using a Variational Autoencoder. It generates a discrete latent vector from the images, based on which a PDDL model can be constructed and then solved by an off-the-shelf planner. (2) Action Autoencoder / Discriminator, a neural architecture which jointly finds the action symbols and the implicit action models (preconditions/effects), and provides a successor function for the implicit graph search. We evaluate LatPlan using image-based versions of 3 planning domains: 8-puzzle, Towers of Hanoi and LightsOut.
研究の動機と目的
- 古典的計画における知識獲得のボトル neck を解消するため、PDDLモデルを人手で設計する必要をなくす。
- 環境構造に関する事前仮定なしに、視覚的入力を自動的に記号的計画表現に埋め込むことで、サブシンボリックとシンボリックのギャップを埋める。
- 人為的なアクションモデルや述語なしに、ラベルなしの画像遷移および初期状態・目標画像ペアからドメインに依存しない計画を可能にする。
- 深層学習が視覚的データから自動的に記号的計画モデルを誘導できることを示し、市販の計画器を用いて最適かつ完全な解を達成可能にする。
提案手法
- 状態オートエンコーダー(SAE)は、変分オートエンコーダーを用いて、rawな画像を離散的かつ命題的な潜在ベクトル空間にマッピングし、記号的状態表現を可能にする。
- アクションオートエンコーダー(AAE)と識別器は、ラベルなしの画像遷移から、アクション記号とその暗黙の事前条件および効果を共同で推論する。
- AAE/Dシステムは、実際の遷移と生成された遷移を区別することで、潜在空間における隠れたグラフ探索を可能にする successor 関数を学習する。
- 記号的計画器は、学習された潜在表現から構築されたPDDLモデル上で動作し、市販の計画器を用いて最適な解を発見する。
- 潜在状態のシーケンスを再び画像シーケンスにデコードすることで、計画実行を可視化する。
- 学習には、訓練データと検証データの比率が9:1となるように設定し、ハノイの塔のような低次元潜在空間の領域では、一般化を向上させるために状態拡張を適用する。
実験結果
リサーチクエスチョン
- RQ1深層学習システムは、ラベルなしの画像遷移および初期状態・目標画像ペアのみから、自動的に記号的PDDLモデルを誘導できるか?
- RQ2人為的なアクション定義やグランドイングアノテーションなしに、システムはアクション記号とその事前条件・効果を学習できるか?
- RQ3潜在空間表現が、市販の古典的計画器を用いた最適計画を可能にする十分な構造を保持しているか?
- RQ4非局所的効果(例:LightsOut)や動的オブジェクト(例:消えるライト)を有する領域にも一般化できるか?
- RQ5学習された記号的表現は、さまざまな視覚的ドメイン、特にひっくり返った画像や歪んだバージョン(例:渦巻き効果)に対しても、頑健で一般化可能か?
主な発見
- LatPlanは、8パズル、ハノイの塔、LightsOutの領域において、人為的な記号的モデルなしに、画像遷移から記号的表現を成功して学習した。
- システムは、362,880の状態と967,680のアクションを有する8パズルにおいても、20,000件のラベルなし遷移での学習のみで最適解を達成した。
- アクションオートエンコーダーと識別器は、潜在空間における正しい successor 関数の学習を可能にするアクション記号とその事前条件・効果を成功して推論した。
- 本手法は、16マス中5マスに影響を与えるような複雑な領域(例:LightsOut)にも一般化でき、渦巻き効果を加えた歪んだバージョンに対しても対応可能であった。
- システムは視覚的干渉要因(例:MandrillやSpider 8パズル)に対して頑健であり、消えるオブジェクトを有する領域に対しても対応可能であり、局所的で静的オブジェクトに限定されない柔軟性を示した。
- 本システムの全モジュール、包括的な事前学習重み、およびソースコードはGitHubに公開され、再現性を確保している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。