QUICK REVIEW

[논문 리뷰] A survey on intrinsic motivation in reinforcement learning

Arthur Aubret, Laëtitia Matignon|arXiv (Cornell University)|2019. 08. 19.

Reinforcement Learning in Robotics참고 문헌 191인용 수 92

한 줄 요약

이 설문은 딥 RL에서의 내재 동기(IM)를 분류하고 검토하며, 지식 습득, 기술 학습, 상태 표현을 자세히 다루고 탐색, 역량 강화, 커리큘럼 접근법에 대해 논의한다. 예측 오차, 상태 신규성, 정보 이득, 역량 강화 등을 활용하는 방법을 비교하고, IM이 외재적 보상과 목표와 어떻게 통합될 수 있는지 개요를 제시한다.

ABSTRACT

The reinforcement learning (RL) research area is very active, with an important number of new contributions; especially considering the emergent field of deep RL (DRL). However a number of scientific and technical challenges still need to be addressed, amongst which we can mention the ability to abstract actions or the difficulty to explore the environment which can be addressed by intrinsic motivation (IM). In this article, we provide a survey on the role of intrinsic motivation in DRL. We categorize the different kinds of intrinsic motivations and detail for each category, its advantages and limitations with respect to the mentioned challenges. Additionnally, we conduct an in-depth investigation of substantial current research questions, that are currently under study or not addressed at all in the considered research area of DRL. We choose to survey these research works, from the perspective of learning how to achieve tasks. We suggest then, that solving current challenges could lead to a larger developmental architecture which may tackle most of the tasks. We describe this developmental architecture on the basis of several building blocks composed of a RL algorithm and an IM module compressing information.

연구 동기 및 목표

RL에서 IM을 분류하고 지식 습득과 기술 학습에 초점을 맞춘 두 가지 방향성을 제안한다.
IM이 외재 보상 및 목표 공간과 어떻게 통합되어 학습을 안내할 수 있는지 검토한다.
상태 표현, 탐색, 역량 강화를 향상시키는 IM의 역할을 분석한다.
IM 주도 학습에서 대안 커리큘럼 및 목표 생성 방식들을 요약한다.

제안 방법

DRL에서의 IM 분류를 제시하고 이를 섹션 6 지식 습득과 섹션 7 기술 학습에 매핑한다.
핵심 IM 기법: 예측 오차, 상태 신규성, 정보 이득, 그리고 역량 강화를 조사한다.
r = α r_int + β r_ext 또는 V(s) = α V_int(s) + β V_ext(s)인 통합 접근법을 논의한다.
화이트 노이즈를 다루는 탐색 메커니즘, ICM, EMI, 의사계수/밀도 기반 방법, RND 등을 설명한다.
역량 강화(empowerment)을 상호 정보(mutual-information) 목적으로 설명하고 실제로 어떻게 계산하거나 제한할 수 있는지 설명한다.
IM이 상태 표현 학습과 기술을 위한 목표 공간 구성에 어떤 정보를 제공하는지 개략적으로 설명한다.

실험 결과

연구 질문

RQ1딥 RL에서 내재 동기를 어떻게 체계적으로 분류할 수 있는가?
RQ2주요 IM 메커니즘(예측 오차, 상태 신규성, 정보 이득, 역량 강화)과 탐색 과제에서의 비교는 무엇인가?
RQ3감독 없이도 옵션으로서의 기술을 학습하고 전이하며 목표 공간을 구축하기 위해 IM을 어떻게 사용할 수 있는가?
RQ4내재 보상을 외재 보상과 결합하거나 표현 및 커리큘럼 구성에 활용하는 타이밍과 방법은?
RQ5IM 적용의 실제적 도전과제(계산성, 확장성, 장기 제어) 그리고 이를 완화할 방법은?

주요 결과

예측 오차 기반, 상태 신규성 기반, 정보 이득 기반 IM 접근법은 각각 탐색을 다루지만 계산 비용과 환경에의 적합성이 다르다.
내부적 호기심 모듈(ICM) 및 관련 방법은 환경의 통제 가능한 측면에 집중함으로써 화이트 노이즈 문제를 피하는 데 도움을 준다.
무작위 네트워크 증류(RND) 및 밀도/의사계수 방법은 몬테즈마의 원수 같은 희박 보상 태스크의 탐색을 개선하지만 확장성과 일반화는 여전히 문제다.
역량 강화 기반 IM은 제어 가능한 행동 학습을 촉진하고 다중 에이전트 학습과 평생 기술 다각화를 안정시킬 수 있지만 계산 집약적이다.
상태 표현 학습은 상호작용 분포를 형성함으로써 IM의 혜택을 받아 해석 가능한 표현과 더 효과적인 일반화를 가능하게 한다.
내재 보상으로 기술 학습은 작업에 구애받지 않는 기술(옵션)의 발견과 재사용을 가능하게 하며, 상태 표현으로부터의 목표 공간 구성은 계층적 RL과 커리큘럼 학습을 촉진할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.