QUICK REVIEW

[논문 리뷰] On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning Controllers and Recurrent Neural World Models

Juergen Schmidhuber|arXiv (Cornell University)|2015. 11. 30.

Reinforcement Learning in Robotics참고 문헌 243인용 수 40

한 줄 요약

이 논문은 순환 신경망(RNN) 컨트롤러가 별도의 RNN 기반 예측 세계 모델을 능동적으로 쿼리하고 활용함으로써 사고를 학습하는 새로운 강화학습 아키텍처를 제안한다. 알고리즘적 정보 이론을 활용해 내재적 호기심과 압축 기반 탐색을 이끌어내어, 시스템은 자율적으로 새로운 과제를 생성하고 테스트하며, 부분 관찰 가능한 환경에서 계층적이고 점진적인 학습 및 자기 향상이 가능하게 한다.

ABSTRACT

This paper addresses the general problem of reinforcement learning (RL) in partially observable environments. In 2013, our large RL recurrent neural networks (RNNs) learned from scratch to drive simulated cars from high-dimensional video input. However, real brains are more powerful in many ways. In particular, they learn a predictive model of their initially unknown environment, and somehow use it for abstract (e.g., hierarchical) planning and reasoning. Guided by algorithmic information theory, we describe RNN-based AIs (RNNAIs) designed to do the same. Such an RNNAI can be trained on never-ending sequences of tasks, some of them provided by the user, others invented by the RNNAI itself in a curious, playful fashion, to improve its RNN-based world model. Unlike our previous model-building RNN-based RL machines dating back to 1990, the RNNAI learns to actively query its model for abstract reasoning and planning and decision making, essentially "learning to think." The basic ideas of this report can be applied to many other cases where one RNN-like system exploits the algorithmic information content of another. They are taken from a grant proposal submitted in Fall 2014, and also explain concepts such as "mirror neurons." Experimental results will be described in separate papers.

연구 동기 및 목표

강화학습과 예측 세계 모델링을 융합한 일반 목적의 자기 향상형 AI 아키텍처를 개발한다.
컨트롤러가 세계 모델을 능동적으로 쿼리하고 추론함으로써 인간과 유사한 추상적 계획 및 추론을 모방하도록 한다.
내재적 호기심과 압축 기반 보상 통합을 통해 부분 관찰 가능한 환경에서의 수명 주기적 점진적 학습 과제를 해결한다.
알고리즘적 정보 이론을 통해 '사고하는 법을 배우는' 과정을 체계화하며, 모델 향상이 탐색과 신용 할당을 이끄는 방식을 정의한다.
자율적으로 새로운 과제를 창출하고 해결할 수 있는 시스템을 구축하여 과학적 발견과 놀이 기반 학습을 모방한다.

제안 방법

시스템은 컨트롤러(C)와 예측 세계 모델(M)의 이중 RNN 아키텍처를 사용하며, 모두 경사 하강법과 강화학습을 통해 훈련된다.
세계 모델 M은 에이전트의 관측 이력을 압축하도록 훈련되며, 압축 성능이 모델 품질과 신규성 탐지의 대체 지표로 사용된다.
컨트롤러 C는 외부 보상(과제 성능 기반)과 내재적 보상(신규 데이터의 M 압축 향상에 기여하는 행동 기반)을 조합한 하이브리드 보상으로 훈련된다.
전체 이력 재평가의 비용을 줄이기 위해 최근 압축 향상에 초점을 맞춘 히우리스틱을 적용하여 계산 오버헤드를 감소시킨다.
세계 모델 M은 자기 모듈화형이고 워너-테이크-all RNN으로 구현되어, M의 특정 부분이 어떤 데이터 세그먼트를 인코딩하는지 추적할 수 있도록 한다.
C의 행동에 대한 신용 할당은 C의 어떤 부분이 M의 어떤 부분에 영향을 미치는지 추적함으로써 가능해지며, 이는 효율적이고 타겟된 프로그램 탐색 및 진화를 가능하게 한다.

실험 결과

연구 질문

RQ1강화학습 에이전트는 예측 세계 모델을 능동적으로 쿼리하고 재사용함으로써 어떻게 사고를 학습할 수 있는가?
RQ2알고리즘적 정보 이론은 내재적 호기심과 자율적인 과제 생성에 어떻게 기여하는가?
RQ3세계 모델의 압축 성능를 탐색을 위한 신뢰할 수 있는 내재적 보상 신호로 사용할 수 있는가?
RQ4컨트롤러는 예측 RNN 세계 모델의 내부 구조를 활용해 추상적으로 계획하고 추론할 수 있는가?
RQ5모듈화되고 검증 가능한 모델 업데이트를 통해 치명적인 잊힘 없이 수명 주기적 점진적 학습을 어떻게 달성할 수 있는가?

주요 결과

RNNAI 아키텍처는 컨트롤러가 RNN 기반 세계 모델을 능동적으로 탐색하고 재사용하여 계획 및 추론을 수행함으로써 사고를 학습할 수 있도록 한다.
세계 모델의 압축 성능 향상 기반 내재적 보상은 탐색과 과제 탐색을 효과적으로 이끈다.
최근 압축 향상에 초점을 맞춘 접근은 전체 이력 재평가 없이도 모델 향상 평가에 대해 계산적으로 실현 가능한 히우리스틱을 제공한다.
자기 모듈화형 워너-테이크-all RNN은 특정 데이터 세그먼트를 인코딩하는 데 어떤 모델 구성 요소가 사용되었는지 효율적으로 추적할 수 있게 하여 정확한 신용 할당을 가능하게 한다.
시스템은 복잡한 행동을 점진적으로 학습하고, 모델 압축 향상으로 이어지는 새로운 과제를 자율적으로 창출할 수 있으며, 과학적 호기심을 모방한다.
이 프레임워크는 계층적, 다중 과제, 점진적 학습을 지원하며, 내부 모델 향상을 통해 외부 보상 획득을 가속화할 잠재력을 지닌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.