QUICK REVIEW

[論文レビュー] Unsupervised Grounding of Plannable First-Order Logic Representation from Images

Masataro Asai|arXiv (Cornell University)|Feb 21, 2019

Reinforcement Learning in Robotics被引用数 20

ひとこと要約

本稿では、視覚的オブジェクト特徴から人為的ラベルなしに教師なしで解釈可能な1階論理述語を学習する、教師なしニューラルネットワークであるFirst-Order State AutoEncoder (FOSAE) を提案する。オブジェクト特徴の統合的符号化と再利用可能な関係的パターンの発見を通じて、古典的計画法と互換性のあるコンパクトな記号的表現を生成し、8-PuzzleおよびフォトリアリスティックBlocksworld環境で成功を収めた。

ABSTRACT

Recently, there is an increasing interest in obtaining the relational structures of the environment in the Reinforcement Learning community. However, the resulting "relations" are not the discrete, logical predicates compatible to the symbolic reasoning such as classical planning or goal recognition. Meanwhile, Latplan (Asai and Fukunaga 2018) bridged the gap between deep-learning perceptual systems and symbolic classical planners. One key component of the system is a Neural Network called State AutoEncoder (SAE), which encodes an image-based input into a propositional representation compatible to classical planning. To get the best of both worlds, we propose First-Order State AutoEncoder, an unsupervised architecture for grounding the first-order logic predicates and facts. Each predicate models a relationship between objects by taking the interpretable arguments and returning a propositional value. In the experiment using 8-Puzzle and a photo-realistic Blocksworld environment, we show that (1) the resulting predicates capture the interpretable relations (e.g. spatial), (2) they help obtaining the compact, abstract model of the environment, and finally, (3) the resulting model is compatible to symbolic classical planning.

研究の動機と目的

視覚的入力を根拠として1階論理を定式化することで、ニューラル的認識と記号的推論のギャップを埋めること。
古典的計画における命題的表現の限界を克服し、オブジェクト引数に基づく関係的記号的抽象化を可能にすること。
人為的関係ラベルや報酬信号なしに、解釈可能で再利用可能な述語を発見する教師なし手法を開発すること。
学習された表現がコンパクトで汎化可能であり、PDDLベースの古典的計画システムで直接利用可能であることを保証すること。
微分可能でアテンションベースのアーキテクチャを用いて、生の視覚観測からエンドツーエンドの記号的推論を実現すること。

提案手法

FOSAEは、画像パッチおよびバウンディングボックスから得られるオブジェクト特徴ベクトルを処理し、入力状態を再構築するニューラルオートエンコーダアーキテクチャを採用する。
アテンション機構を用いて、各述語に対して関連のあるオブジェクトペアやタプルを特定し、異なる観測に対して動的引数選択を可能にする。
複数のオブジェクトタプル間で重みを共有することで、一般化を促進し、共通の関係的パターンを学習することでパラメータ数を削減する。
再構築損失を用いて教師なしで述語を学習し、述語記号や人為的関係ラベルに対する教師信号は一切使用しない。
可変な述語のアリティをサポートし、引数のインスタンス化パターンから解釈可能な、接地された匿名の述語記号を学習する。
出力は、PDDL計画システムと互換性のあるオブジェクト引数付きの1階論理事実（述語）の集合である。

実験結果

リサーチクエスチョン

RQ1教師なしのニューラルネットワークは、視覚的オブジェクト特徴から直接解釈可能な1階論理述語を学習できるか？
RQ2発見された述語は、異なるオブジェクト配置や環境においてどの程度一般化するか？
RQ3得られた記号的表現は、視覚的に根拠づけられたドメインで古典的計画に効果的に利用できるか？
RQ4モデルのアーキテクチャは、関係的パターンのコンパクトさと再利用性をどの程度促進するか？
RQ5アテンションベースの引数選択メカニズムは、学習された述語の解釈可能性と一般化性にどのように寄与するか？

主な発見

FOSAEは、人間による引数インスタンス化パターンの解釈によって裏付けられる、視覚的入力から解釈可能な空間的および関係的述語を効果的に学習した。
モデルは入力状態の正確な再構築を達成し、視覚例では真値と再構築画像の間で高い一致が確認された。
8-Puzzleドメインでは、複数のテストインスタンスで正しく計画可能なコンパクトで汎化可能な表現を学習した。
フォトリアリスティックBlocksworld環境では、30個のランダムに生成された3ブロックインスタンスで正しく計画可能なPDDL互換モデルを生成した。
4ブロック環境へのスケーラビリティを示したが、5ブロック計画はメモリ制限のため実施できなかった。
得られた記号的表現は古典的プランナと互換性があることが検証され、計画は手動で正しく確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。