QUICK REVIEW

[논문 리뷰] A unified strategy for implementing curiosity and empowerment driven reinforcement learning

Ildefons Magrans de Abril, Ryota Kanai|arXiv (Cornell University)|2018. 06. 18.

Reinforcement Learning in Robotics참고 문헌 7인용 수 24

한 줄 요약

이 논문은 에이전트와 환경 간의 정보 흐름을 모델링하여 궁금증과 능력감을 통합적인 내재 동기로 통합하는 통합 프레임워크를 제안한다. 공유된 전방 모델을 사용하여 궁금증에서 허브레틱 드라이브를 유도하고 효율적으로 능력감을 계산함으로써, 더 효율적인 탐색과 제어를 가능하게 하며 샘플 효율성을 향상시키고 더 넓은 자율적 행동을 달성한다.

ABSTRACT

Although there are many approaches to implement intrinsically motivated artificial agents, the combined usage of multiple intrinsic drives remains still a relatively unexplored research area. Specifically, we hypothesize that a mechanism capable of quantifying and controlling the evolution of the information flow between the agent and the environment could be the fundamental component for implementing a higher degree of autonomy into artificial intelligent agents. This paper propose a unified strategy for implementing two semantically orthogonal intrinsic motivations: curiosity and empowerment. Curiosity reward informs the agent about the relevance of a recent agent action, whereas empowerment is implemented as the opposite information flow from the agent to the environment that quantifies the agent's potential of controlling its own future. We show that an additional homeostatic drive is derived from the curiosity reward, which generalizes and enhances the information gain of a classical curious/heterostatic reinforcement learning agent. We show how a shared internal model by curiosity and empowerment facilitates a more efficient training of the empowerment function. Finally, we discuss future directions for further leveraging the interplay between these two intrinsic rewards.

연구 동기 및 목표

강화학습 에이전트에서 다수의 내재 동기를 통합하는 데 아직 미흡하게 다뤄진 문제를 해결하기 위해.
에이전트와 환경 간의 정보 흐름을 내재 동기 핵심 메커니즘으로 모델링하는 통합 프레임워크를 개발하기 위해.
공유된 전방 모델을 사용하여 정보 이론적 기반에서 궁금증과 능력감을 유도할 수 있음을 보여주기 위해.
환경으로부터의 정보 획득(궁금증)과 환경에 대한 제어 잠재력(능력감)을 조합함으로써 학습 효율성과 행동 다양성이 향상됨을 보여주기 위해.
궁금증에서 파생된 허브레틱 드라이브를 도입하여 기존 궁금증 기반 방법을 초월한 탐색을 향상시키기 위해.

제안 방법

전방 모델의 예측 오차를 통해 측정된 정보 이론적 기반에서 궁금증을 에이전트로의 환경 정보 획득으로 정식화한다.
에이전트에서 환경으로의 정보 흐름으로서의 능력감을 정의하며, 결정성 있는 정책 하에서 미래 상태 분포의 엔트로피로 측정한다.
상태-행동 쌍으로부터 다음 상태 관측값을 예측하기 위해 공유된 딥 네ural 네트워크를 전방 모델로 사용하여 계산 비용을 절감한다.
탐색과 안정성의 균형을 이루는 파라미터 α를 도입하여 궁금증에서 허브레틱 드라이브를 유도함으로써 고전적 궁금증을 일반화한다.
DDPG를 사용하여 정책 최적화를 수행하며, 궁금증과 능력감의 병합된 내재 보상으로 3개의 방 탐색 환경에서 에이전트를 훈련시킨다.
변분 추론과 정보 이론 원리를 적용하여 궁금증과 능력감을 효율적으로 근사한다.

실험 결과

연구 질문

RQ1강화학습에서 궁금증과 능력감을 정보 이론적 기반의 단일 프레임워크로 통합할 수 있는가?
RQ2공유된 전방 모델이 궁금증과 능력감을 동시에 학습할 때 샘플 효율성을 향상시킬 수 있는가?
RQ3유도된 허브레틱 드라이브가 순수 궁금증 기반 방법에 비해 탐색을 향상시키는가?
RQ4미래의 선택지(능력감)와 제어 정밀도 사이의 트레이드오프가 정책 학습에 어떤 영향을 미치는가?
RQ5궁금증과 능력감 간의 상호작용이 더 다양한 자율적 행동 양식을 이끌 수 있는가?

주요 결과

랜덤 초기 위치를 가진 3개의 방 환경에서 순수 궁금증 기반 에이전트에 비해 제안된 방법이 훨씬 뛰어난 탐색 행동을 달성한다.
궁금증에서 유도된 허브레틱 드라이브는 고전적 궁금증을 일반화하고 파라미터 α를 통해 탐색과 안정성의 균형을 이루며 향상된 성능을 보인다.
능력감 근사가 높은 제어 능력을 지닌 상태—예를 들어 문 근처의 위치—를 성공적으로 식별한다.
전방 모델을 공유함으로써 궁금증과 능력감 함수에 대한 계산 비용을 절감하고 훈련 효율성을 향상시킨다.
내재 보상의 병합 프레임워크는 정보 획득과 제어 잠재력의 균형을 이룬 행동을 발견하는 데 기여한다.
결합된 보상으로 DDPG 정책 최적화를 수행함으로써 정보 획득과 미래 제어를 최대화하는 안정적이고 효과적인 제어 정책을 도출할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.