QUICK REVIEW

[논문 리뷰] Unsupervised Grounding of Plannable First-Order Logic Representation from Images

Masataro Asai|arXiv (Cornell University)|2019. 02. 21.

Reinforcement Learning in Robotics인용 수 20

한 줄 요약

이 논문은 인간의 감독 없이 이미지 기반 객체 특징에서 해석 가능한 일阶 논리 술어를 학습하는 비지도 학습 신경망인 First-Order State AutoEncoder(FOSAE)를 제안한다. 객체 특징을 동시에 인코딩하고 재사용 가능한 관계 패턴을 탐지함으로써 FOSAE는 고전적 계획 시스템과 호환되는 압축된 기호적 표현을 생성하며, 8-퍼즐과 실사적인 블록월드 환경에서 성공을 거두었다.

ABSTRACT

Recently, there is an increasing interest in obtaining the relational structures of the environment in the Reinforcement Learning community. However, the resulting "relations" are not the discrete, logical predicates compatible to the symbolic reasoning such as classical planning or goal recognition. Meanwhile, Latplan (Asai and Fukunaga 2018) bridged the gap between deep-learning perceptual systems and symbolic classical planners. One key component of the system is a Neural Network called State AutoEncoder (SAE), which encodes an image-based input into a propositional representation compatible to classical planning. To get the best of both worlds, we propose First-Order State AutoEncoder, an unsupervised architecture for grounding the first-order logic predicates and facts. Each predicate models a relationship between objects by taking the interpretable arguments and returning a propositional value. In the experiment using 8-Puzzle and a photo-realistic Blocksworld environment, we show that (1) the resulting predicates capture the interpretable relations (e.g. spatial), (2) they help obtaining the compact, abstract model of the environment, and finally, (3) the resulting model is compatible to symbolic classical planning.

연구 동기 및 목표

시각적 입력에서 기반을 두고 일阶 논리의 개념을 도출함으로써 신경망 인식과 기호적 추론 사이의 격차를 메우기.
고전적 계획에서 문장 표현의 한계를 해결하기 위해 관계 기반, 객체 기반의 기호 추상화를 가능하게 하기.
인간이 레이블링한 관계나 보상 신호 없이도 해석 가능하고 재사용 가능한 술어를 자동으로 탐지하는 비지도 방법 개발하기.
학습된 표현이 압축되고 일반화 가능하며 PDDL 기반 고전적 계획 시스템에서 직접 사용 가능한지 보장하기.
기울기 기반, 주의 기반 아키텍처를 통해 원시 시각 관측에서부터 종단 간 기호 추론을 가능하게 하기.

제안 방법

FOSAE는 이미지 패치와 바운딩 박스에서 유도된 객체 특징 벡터를 처리하여 입력 상태를 재구성하는 신경 오토인코더 아키텍처를 사용한다.
각 술어에 대해 관련 있는 객체 쌍이나 튜플을 식별하기 위해 주의 메커니즘을 활용함으로써, 다양한 관측에서 동적 인수 선택이 가능해진다.
다양한 객체 튜플 간에 가중치를 공유함으로써 일반화를 강화하고 공통적인 관계 패턴을 학습함으로써 파라미터 수를 감소시킨다.
재구성 손실을 통해 비지도 방식으로 술어를 학습하며, 술어 기호나 인간이 레이블링한 관계에 대한 지도 신호가 필요하지 않다.
변수 술어의 어리티를 지원하며, 인스턴스화 패턴에서 해석 가능한 기반화된 익명의 술어 기호를 학습한다.
출력은 PDDL 계획 시스템과 호환되는 객체 인수를 가진 일阶 논리 사실(술어)의 집합이다.

실험 결과

연구 질문

RQ1비지도 신경망이 시각적 객체 특징에서 직접 해석 가능한 일阶 논리 술어를 학습할 수 있는가?
RQ2발견된 술어가 다양한 객체 구성과 환경 간에 얼마나 잘 일반화되는가?
RQ3결과적으로 도출된 기호적 표현이 시각적으로 기반을 둔 도메인에서 고전적 계획에 효과적으로 활용될 수 있는가?
RQ4모델의 아키텍처가 관계 패턴의 압축성과 재사용성에 얼마나 기여하는가?
RQ5주의 기반 인수 선택 메커니즘이 학습된 술어의 해석 가능성과 일반화에 기여하는 정도는 어떠한가?

주요 결과

FOSAE는 인간이 인스턴스화 패턴을 해석함으로써 시각적 입력에서 해석 가능한 공간적 및 관계적 술어를 성공적으로 학습하였다.
모델는 입력 상태의 정확한 재구성을 달성하였으며, 시각적 예시에서 진짜 이미지와 재구성된 이미지 간의 높은 일치도를 보였다.
8-퍼즐 도메인에서는 FOSAE가 다수의 테스트 인스턴스에서 정확한 계획을 지원하는 압축되고 일반화 가능한 표현을 학습하였다.
실사적인 블록월드 환경에서는 FOSAE가 PDDL 호환 모델을 생성하여 3개 블록으로 구성된 30개의 랜덤 생성 인스턴스에 대해 정확한 계획을 수행하였다.
4개 블록 환경으로의 확장성도 입증되었으며, 성공적인 계획 결과가 보고되었지만, 메모리 제약으로 5개 블록 계획은 수행되지 못했다.
결과로 도출된 기호적 표현은 고전적 계획기와 호환됨을 검증하였으며, 수작업으로 확인된 계획이 모두 정확하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.