QUICK REVIEW

[논문 리뷰] Variational Intrinsic Control

Karol Gregor, Danilo Jimenez Rezende|arXiv (Cornell University)|2016. 11. 22.

Reinforcement Learning in Robotics참고 문헌 19인용 수 180

한 줄 요약

이 논문은 상호 정보를 최대화하여 옵션과 최종 상태 간의 관계를 학습하는 무감독 강화학습 방법을 통해, 명시적 및 암시적 옵션 공식화와 empowerment 추정치를 제시한다.

ABSTRACT

In this paper we introduce a new unsupervised reinforcement learning method for discovering the set of intrinsic options available to an agent. This set is learned by maximizing the number of different states an agent can reliably reach, as measured by the mutual information between the set of options and option termination states. To this end, we instantiate two policy gradient based algorithms, one that creates an explicit embedding space of options and one that represents options implicitly. The algorithms also provide an explicit measure of empowerment in a given state that can be used by an empowerment maximizing agent. The algorithm scales well with function approximation and we demonstrate the applicability of the algorithm on a range of tasks.

연구 동기 및 목표

내적 옵션을 종료 상태를 가진 정책으로 정의하여 제어 가능한 결과를 포착한다.
선택된 옵션과 그 최종 상태 간의 상호 정보(I(Omega, s_f | s_0))를 최대화하여 다양하고 제어 가능한 결과를 장려한다.
함수 근사를 사용하여 확장 가능한 두 가지 정책 기울기 기반 알고리즘(명시적 옵션 및 암시적 옵션)을 개발한다.
에이전트의 상태별 제어를 반영하는 empowerment 추정치를 제공하고 empowerment 기반 에이전트를 안내할 수 있다.

제안 방법

내적 제어를 I(Omega, s_f | s_0) 최대화로 형식화하고 변분 하한 I^{VB}를 사용한다.
상호 정보를 근사하는 bound를 제공하기 위해 옵션 추정 함수 q(Omega|s_0, s_f)을 도입한다.
Algorithm 1 (Explicit Options): p^C에서 Omega를 샘플링하고 정책 pi(a|s, Omega)를 따라 s_f까지 이동한 뒤 q가 Omega를 추론하도록 학습하고, intrinsic reward r_I = log q - log p^C를 사용해 pi를 r_I를 최대화하도록 업데이트하며, r_I로 p^C를 업데이트한다.
Algorithm 2 (Implicit Options): pi^p를 사용한 행동을 옵션으로 하고 학습된 q를 통해 R_I = sum_t log pi^q - log pi^p를 RL과 감독 업데이트로 최대화한다.
임 empowerment를 로그 비율 r_I로 제공하고 정책 업데이트를 위한 명시적 empowerment 기준선을 제시한다.

실험 결과

연구 질문

RQ1주어진 상태에서 에이전트가 이용할 수 있는 내적 옵션은 무엇이며 이를 효율적으로 발견할 수 있는가?
RQ2옵션과 종료 상태 간의 상호 정보를 최대화하면 확장 가능하고 오픈 환경에서 내적 제어의 집합을 얻을 수 있는가?
RQ3명시적 및 암시적 옵션 공식화가 empowerment 추정 및 학습 역학 측면에서 어떻게 비교되는가?
RQ4프레임워크를 외재적 보상과 함께 사용하여 학습을 고영향 옵션으로 편향시킬 수 있는가?
RQ5확률적 환경에서 정확한 empowerment 추정을 위해 폐루프 제어가 필수적인가?

주요 결과

이 접근법은 격자 세계(grid-world) 작업에서 서로 다른 종료 상태로 이어지는 다양한 내적 옵션을 발견할 수 있다.
empowerment 평가가 포함된 격자 세계에서 명시적 옵션 실험의 평균 empowerment가 6.0 네이츠(≈403 도달 가능한 상태)에 도달한다.
25×25 격자 및 3D 이미지 기반 작업에서 암시적 옵션 실험은 평균 empowerment가 약 5.4 네이츠(≈221 도달 가능한 상태) 수준이다.
블록 밀어내기 실험은 empowerment를 최대 7.1 네이츠(≈1200 도달 가능한 상태)까지 끌어올린다.
오픈 루프 empowerment 측정은 확률적 환경에서 실질적으로 저조하고, 폐루프 옵션은 더 높은 empowerment와 강건한 제어를 회복한다.
제안된 방법은 함수 근사와의 확장성 및 부분 관찰 가능성 있는 작업에의 적용 가능성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.