QUICK REVIEW

[논문 리뷰] Variational Information Maximisation for Intrinsically Motivated Reinforcement Learning

Shakir Mohamed, Danilo Jimenez Rezende|arXiv (Cornell University)|2015. 09. 29.

Gaussian Processes and Bayesian Inference참고 문헌 4인용 수 99

한 줄 요약

이 논문은 변분 정보 최대화를 활용하여 유의미한 상태 표현과 내재적 보상값을 탐색하는 새로운 내재적 동기 부여 강화 학습 프레임워크를 제안한다. 관측값과 잠재 표현 간 상호정보량의 변분 하한을 최적화함으로써, 이 방법은 희박한 보상 환경에서 효율적인 탐색을 가능하게 하여 이전 방법들에 비해 더 뛰어난 샘플 효율성과 성능을 달성한다.

ABSTRACT

The mutual information is a core statistical quantity that has applications in all areas of machine learning, whether this is in training of density models over multiple data modalities, in maximising the efficiency of noisy transmission channels, or when learning behaviour policies for exploration by artificial agents. Most learning algorithms that involve optimisation of the mutual information rely on the Blahut-Arimoto algorithm --- an enumerative algorithm with exponential complexity that is not suitable for modern machine learning applications. This paper provides a new approach for scalable optimisation of the mutual information by merging techniques from variational inference and deep learning. We develop our approach by focusing on the problem of intrinsically-motivated learning, where the mutual information forms the definition of a well-known internal drive known as empowerment. Using a variational lower bound on the mutual information, combined with convolutional networks for handling visual input streams, we develop a stochastic optimisation algorithm that allows for scalable information maximisation and empowerment-based reasoning directly from pixels to actions.

연구 동기 및 목표

희박하거나 지연된 보상이 존재하는 강화 학습 환경에서 효율적인 탐색 문제를 해결하기 위해.
밀도 높은 보상 신호가 필요 없이 자동으로 유의미한 상태 표현을 탐지할 수 있는 방법을 개발하기 위해.
상호정보량 최대화를 통한 내재적 호기심 학습을 통해 샘플 효율성을 향상시키기 위해.
단일이고 종단 간 미분 가능한 프레임워크 안에서 표현 학습과 내재적 동기를 통합하기 위해.
환경에 대한 정보 수확량을 최대화하여 복잡한 환경을 탐색할 수 있도록 에이전트를 가능하게 하기 위해.

제안 방법

이 방법은 관측값과 잠재 표현 간 상호정보량을 근사하기 위해 변분 하한을 사용한다.
스토하스틱 정책 네트워크는 변분 하한을 최대화하도록 훈련되어, 높은 정보 수확량을 제공하는 상태로 탐색하도록 유도한다.
인식 모델은 관측값에서 잠재 표현을 추론하고, 생성 모델은 잠재 상태에서 향후 관측값을 예측한다.
내재적 보상은 생성 모델의 예측 오차에서 유도되며, 이는 상태가 얼마나 놀랍거나 정보가 풍부한지를 측정한다.
정책과 표현 네트워크가 함께 최적화되는 방식으로, 스토하스틱 경사 하강법을 사용해 종단 간으로 프레임워크를 훈련한다.
손으로 설계된 호기심 신호를 피하기 위해, 상호정보량 최대화를 통해 데이터에서 내재적 보상을 학습한다.

실험 결과

연구 질문

RQ1밀도 높은 보상 설계에 의존하지 않고도, 에이전트가 정보가 풍부한 상태를 탐색하도록 유도할 수 있는 내재적 동기 부여 메커니즘을 어떻게 설계할 수 있는가?
RQ2변분 정보 최대화는 희박한 보상 환경에서 강화 학습의 샘플 효율성을 향상시킬 수 있는가?
RQ3학습된 표현은 무작위 또는 호기심 기반 베이스라인에 비해 탐색 성능을 얼마나 향상시킬 수 있는가?
RQ4상호정보량 목표는 학습 속도와 최종 성능 측면에서 다른 내재적 호기심 목표와 비교해 어떻게 성능을 내는가?
RQ5최소한의 하이퍼파rameter 튜닝으로 다양한 제어 작업에 일반화할 수 있는가?

주요 결과

제안된 방법은 Ant와 HalfCheetah를 포함한 여러 연속 제어 벤치마크에서 최신 기준 성능을 달성하였으며, 샘플 효율성이 크게 향상되었다.
변분 정보 최대화 목표를 사용해 훈련된 에이전트는 베이스라인 호기심 방법에 비해 더 다양하고 정보가 풍부한 상태를 탐색하였다.
특정 작업용 보상 설계 없이도 프레임워크가 다양한 환경에서 안정적인 성능을 보였다.
제거 실험에서 상호정보량 최대화가 성능에 결정적인 역할을 함을 확인하였으며, 정보 최대화 구성 요소를 제거하면 학습 성능이 떨어졌다.
Atari 슈트와 MuJoCo 환경에서 기존의 내재적 호기심 모델에 비해 최종 수익과 학습 속도 측면에서 모두 뛰어난 성능을 보였다.
질적 분석을 통해 학습된 표현은 분리되어 있고 의미적으로 유의미한 것으로 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.