QUICK REVIEW

[논문 리뷰] Classical Planning in Deep Latent Space: Bridging the Subsymbolic-Symbolic Boundary

Masataro Asai, Alex Fukunaga|arXiv (Cornell University)|2017. 04. 29.

AI-based Problem Solving and Planning인용 수 30

한 줄 요약

LatPlan은 변분 오토인코더(상태 오토인코더)를 통해 원시 이미지에서 이산적이고 명제적인 잠재 공간을 학습하고, 행동 기호와 그 모델(행동 오토인코더/판별기)을 함께 추론함으로써 비기호적 시각 입력과 기호적 고전 계획 간의 갭을 메우는 비지도 학습 프레임워크를 제안한다. 이는 인간이 제공한 기호적 모델 없이도 원시 이미지 쌍으로부터 도메인 독립적인 계획을 가능하게 하며, 이미지 기반 8-puzzle, 하노이의 탑, LightsOut 도메인에서 최적의 해를 달성하고, 엔드 투 엔드로 시각적 계획 실행 과정을 시각화한다.

ABSTRACT

Current domain-independent, classical planners require symbolic models of the problem domain and instance as input, resulting in a knowledge acquisition bottleneck. Meanwhile, although deep learning has achieved significant success in many fields, the knowledge is encoded in a subsymbolic representation which is incompatible with symbolic systems such as planners. We propose LatPlan, an unsupervised architecture combining deep learning and classical planning. Given only an unlabeled set of image pairs showing a subset of transitions allowed in the environment (training inputs), and a pair of images representing the initial and the goal states (planning inputs), LatPlan finds a plan to the goal state in a symbolic latent space and returns a visualized plan execution. The contribution of this paper is twofold: (1) State Autoencoder, which finds a propositional state representation of the environment using a Variational Autoencoder. It generates a discrete latent vector from the images, based on which a PDDL model can be constructed and then solved by an off-the-shelf planner. (2) Action Autoencoder / Discriminator, a neural architecture which jointly finds the action symbols and the implicit action models (preconditions/effects), and provides a successor function for the implicit graph search. We evaluate LatPlan using image-based versions of 3 planning domains: 8-puzzle, Towers of Hanoi and LightsOut.

연구 동기 및 목표

고전 계획에서 인간이 수작업으로 작성해야 하는 기호적 PDDL 모델로 인한 지식 확보의 한계를 해결하기 위해.
환경의 구조에 대한 사전 가정 없이, 시각적 입력을 자동으로 기호적 계획 표현으로 정착시키는 것으로 비기호적-기호적 갭을 메우기 위해.
인간이 제공한 행동 모델이나 술어 없이, 레이블이 없는 이미지 전이 및 초기-목표 이미지 쌍으로부터 도메인 독립적인 계획을 가능하게 하기 위해.
딥 러닝이 시각 데이터에서 자동으로 기호적 계획 모델을 유도할 수 있음을 입증하고, 표준 도구를 사용해 최적의 완전한 해를 도출할 수 있도록 하기 위해.

제안 방법

상태 오토인코더(사용자 정의 오토인코더)는 변분 오토인코더를 사용해 원시 이미지를 이산적이고 명제적인 잠재 벡터 공간으로 매핑함으로써 기호적 상태 표현을 가능하게 한다.
행동 오토인코더(행동 오토인코더)와 판별기는 레이블이 없는 이미지 전이에서 행동 기호와 그 내재된 전제 조건 및 영향을 함께 추론한다.
AAE/D 시스템은 실제 전이와 생성된 전이를 구별함으로써 잠재 공간에서의 암묵적 그래프 탐색을 가능하게 하며, 후계자 함수를 학습한다.
기호적 계획기는 학습된 잠재 표현에서 유도된 PDDL 모델을 기반으로 작동하며, 표준 도구를 사용해 최적의 해를 찾는다.
시스템은 잠재 상태 시퀀스를 다시 이미지 시퀀스로 복호화함으로써 계획 실행 과정을 시각화한다.
학습은 훈련 데이터와 검증 데이터의 비율이 9:1이 되도록 하며, 하노이의 탑과 같은 낮은 상태공간 도메인에서는 일반화를 향상시키기 위해 상태 증강 기법을 적용한다.

실험 결과

연구 질문

RQ1딥 러닝 시스템은 레이블이 없는 이미지 전이와 초기-목표 이미지 쌍만으로도 자동으로 기호적 PDDL 모델을 유도할 수 있는가?
RQ2인간이 제공한 행동 정의나 지도 정보 없이도 시스템이 행동 기호와 그 전제 조건/영향을 학습할 수 있는가?
RQ3잠재 공간 표현이 표준 고전 계획기로 최적의 계획을 가능하게 하기 위해 충분한 구조를 유지하는가?
RQ4비국소적 영향(예: LightsOut)과 동적 물체(예: 사라지는 조명)를 가진 도메인으로 일반화 가능한가?
RQ5학습된 기호적 표현은 스캐빈지드 이미지나 왜곡된 형태(예: 나선 효과)를 포함한 다양한 시각적 도메인에서 강건하고 일반화 가능한가?

주요 결과

LatPlan은 인간이 제공한 기호적 모델 없이도 8-puzzle, 하노이의 탑, LightsOut 도메인에서 이미지 전이로부터 기호적 표현을 성공적으로 학습했다.
시스템은 테스트된 모든 도메인에서 최적의 해를 달성했으며, 상태 수가 362,880개이고 행동 수가 967,680개에 이르는 8-puzzle 도메인에서도 훈련에 20,000개의 레이블이 없는 전이만 사용했다.
행동 오토인코더와 판별기는 행동 기호와 그 전제 조건/영향을 성공적으로 추론했으며, 잠재 공간에서 정확한 후계자 함수 학습을 가능하게 했다.
이 방법은 하나의 행동이 격자 면적의 최대 5/16에 영향을 주는 복잡한 도메인인 LightsOut에도 일반화되었고, 나선 효과가 가미된 왜곡된 형태의 버전에도 적용 가능했다.
시스템은 시각적 방해 요소(예: Mandrill 및 Spider 8-puzzle)에 강건했으며, 사라지는 물체를 포함한 도메인을 처리해 국소적이고 정적 물체 환경을 넘어서는 유연성을 보였다.
전체 시스템, 포함된 사전 학습된 가중치 및 소스 코드는 GitHub에 공개되어 재현 가능성을 보장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.