Skip to main content
QUICK REVIEW

[논문 리뷰] Schema Networks: Zero-shot Transfer with a Generative Causal Model of Intuitive Physics

Ken Kansky, Tom Silver|arXiv (Cornell University)|2017. 06. 14.
Reinforcement Learning in Robotics참고 문헌 20인용 수 150
한 줄 요약

스키마 네트워크는 직관 물리학의 생성적이고 객체 지향적인 인과 모델을 학습하여 Breakout variations 간 제로샷 전이를 가능하게 하며, 전이 및 견고성 측면에서 A3C와 Progressive Networks를 능가한다.

ABSTRACT

The recent adaptation of deep neural network-based methods to reinforcement learning and planning domains has yielded remarkable progress on individual tasks. Nonetheless, progress on task-to-task transfer remains limited. In pursuit of efficient and robust generalization, we introduce the Schema Network, an object-oriented generative physics simulator capable of disentangling multiple causes of events and reasoning backward through causes to achieve goals. The richly structured architecture of the Schema Network can learn the dynamics of an environment directly from data. We compare Schema Networks with Asynchronous Advantage Actor-Critic and Progressive Networks on a suite of Breakout variations, reporting results on training efficiency and zero-shot generalization, consistently demonstrating faster, more robust learning and better transfer. We argue that generalizing from limited data and learning causal relationships are essential abilities on the path toward generally intelligent systems.

연구 동기 및 목표

  • 구조화된 인과 역학을 학습함으로써 작업 변이 간 강건한 일반화를 촉진한다.
  • 이벤트의 여러 원인을 분리하기 위해 객체 지향 생성 모델(스키마 네트워크)을 도입한다.
  • RL과 계획 수립을 위한 확률 그래픽 모델에서 추론으로서의 계획 수립을 가능하게 한다.
  • 제로샷 전이를 시연하고 A3C 및 Progressive Networks와 비교한다.

제안 방법

  • 환경을 속성을 가진 엔티티들로 표현하여 접지된 스키마의 인자 그래프를 형성한다.
  • 비접지 스키마를 템플릿으로 삼아 엔티티, 시간, 바인딩 전반에 걸쳐 인스턴스화하여 접지된 스키마를 생성한다.
  • 전이는 활성 접지된 스키마의 OR 연산과 지속성을 처리하기 위한 자기-전이 항으로 모델링한다.
  • 복잡도 패널티 하에 예측 오차를 최소화하기 위해 스키마를 추가하는 탐욕적 LP-Relaxation 접근법으로 스키마 구조를 학습한다.
  • 목표에 이르는 행동 시퀀스를 찾기 위해 MPBP(Max-product belief propagation) 를 사용하여 스키마 네트워크에서 MAP 추론으로 계획한다.

실험 결과

연구 질문

  • RQ1스키마 네트워크가 학습 중 보지 못한 Breakout variations에 대해 제로샷 전이를 달성할 수 있는가?
  • RQ2스키마가 보상과 동력학 뒤의 인과 요인을 분리해낼 수 있는가?
  • RQ3스키마 네트워크의 전이 및 학습 효율이 A3C 및 Progressive Networks와 어떻게 비교되는가?
  • RQ4생성적 인과 모델에서의 추론으로서의 계획이 모델-프리 방법에 비해 탐색 및 견고성을 향상시킬 수 있는가?

주요 결과

  • 스키마 네트워크는 Breakout variation에서 A3C 및 Progressive Networks보다 더 빠르고 견고한 학습 및 전이를 가능하게 한다.
  • 표준 Breakout에서 학습된 동역학이 추가 학습 없이 Variation에 적용되는 제로샷 전이를 시연한다.
  • 모델은 보상의 원인(예: 벽돌 색상이 보상에 미치는 영향)을 분리하고 학습된 인과 구조를 새로운 배치에 일반화할 수 있다.
  • 인자 그래프에서의 추론으로서의 계획 수립은 회귀 계획과 목표지향적 행동을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.