Skip to main content
QUICK REVIEW

[논문 리뷰] Towards Deep Symbolic Reinforcement Learning

Marta Garnelo, Kai Arulkumaran|arXiv (Cornell University)|2016. 09. 18.
Reinforcement Learning in Robotics참고 문헌 29인용 수 145
한 줄 요약

이 논문은 기호 접지를 위한 신경망 백 엔드와 정책 학습을 위한 기호적 프런트 엔드를 갖춘 하이브리드 신경-기호 강화 학습 아키텍처를 제안하고, 간단한 게임 변형에서 완전 신경 DRL에 비해 데이터 효율적 학습과 전이 이점을 보인다.

ABSTRACT

Deep reinforcement learning (DRL) brings the power of deep neural networks to bear on the generic task of trial-and-error learning, and its effectiveness has been convincingly demonstrated on tasks such as Atari video games and the game of Go. However, contemporary DRL systems inherit a number of shortcomings from the current generation of deep learning techniques. For example, they require very large datasets to work effectively, entailing that they are slow to learn even when such datasets are available. Moreover, they lack the ability to reason on an abstract level, which makes it difficult to implement high-level cognitive functions such as transfer learning, analogical reasoning, and hypothesis-based reasoning. Finally, their operation is largely opaque to humans, rendering them unsuitable for domains in which verifiability is important. In this paper, we propose an end-to-end reinforcement learning architecture comprising a neural back end and a symbolic front end with the potential to overcome each of these shortcomings. As proof-of-concept, we present a preliminary implementation of the architecture and apply it to several variants of a simple video game. We show that the resulting system -- though just a prototype -- learns effectively, and, by acquiring a set of symbolic rules that are easily comprehensible to humans, dramatically outperforms a conventional, fully neural DRL system on a stochastic variant of the game.

연구 동기 및 목표

  • 주요 DRL의 한계인 데이터 비효율성, 취약성, 고수준 추론 부족, 불투명성을 동기 부여하고 해결한다.
  • 의사 결정용 기호 프런트 엔드와 함께 기호 접지를 위한 신경망 백 엔드를 결합한 엔드-투-엔드 아키텍처를 제안한다.
  • 기호 추론의 이점을 설명하기 위해 간단한 비디오 게임 변형에서 개념 검증 구현을 시연한다.
  • 기호 표현을 통한 전이 학습과 투명성의 가능성을 강조한다.

제안 방법

  • 세 단계 파이프라인: 합성곱 자동인코더를 통한 저수준 기호 생성을 통해 기호 토큰을 산출한다.
  • 객체의 지속성, 타입, 관계를 이용해 시간적으로 객체를 추적하고 시공-공간적 기호 상태를 형성하는 표현 구축.
  • 객체 유형 간 상호 작용에 대해 개별 Q-함수를 학습시키고 이를 결합하여 행동 선택을 수행하는 지역화되고 구성적 방식의 강화 학습.

실험 결과

연구 질문

  • RQ1신경망 백 엔드는 원시 지각 데이터에서 구성적이고 접지된 기호 표현을 학습할 수 있는가?
  • RQ2기호 프런트 엔드는 강화 학습 과제에서 데이터 효율적 학습과 전이를 가능하게 하는가?
  • RQ3간단한 환경에서 로컬 객체 유형 결합 Q-함수와 단일 신경 정책 간의 이점은 무엇인가?
  • RQ4다른 객체 유형과 무작위화를 포함한 간단한 게임 변형에 대해 제안된 아키텍처가 기존 DRL(DQN)과 어떻게 비교되는가?

주요 결과

  • 프로토타입 설정의 네 가지 게임 변형 모두에서 하이브리드 아키텍처가 효과적으로 학습한다.
  • 가장 도전적인 무작위 객체 변형에서 기호적 접근 방식이 DQN을 상당히 능가하며 DQN이 1000 에폭 내에 실패하는 상황에서 유력한 정책을 학습한다.
  • 시스템은 백 엔드를 재학습하지 않고도 새로운 변형에 일반화하는 전이 유사 이점을 얻는다.
  • 기호 프런트 엔드는 관련 Q-함수와 객체 상호 작용을 통해 행동에 대한 인간이 이해할 수 있는 정당화 체인을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.