QUICK REVIEW

[논문 리뷰] Efficient Exploration with Self-Imitation Learning via Trajectory-Conditioned Policy.

Yijie Guo, Jongwook Choi|arXiv (Cornell University)|2019. 07. 24.

Reinforcement Learning in Robotics인용 수 10

한 줄 요약

이 논문은 과거 성공적인 트래잭터리의 메모리 버퍼를 활용하여 희소 보상 강화 학습에서 효율적인 탐색을 가능하게 하는 트래잭터리 조건부 정책을 제안한다. 다양한 트래잭터리에 따라 정책 업데이트를 조건화하고, 그것들을 초월해 확장하도록 유도함으로써, 전문가 지시나 무작위 리셋 없이도 몽테주마의 레비유와 히트팔 등의 어려운 아케이드 게임에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Reinforcement learning with sparse rewards is challenging because an agent can rarely obtain non-zero rewards and hence, gradient-based optimization of parameterized policies can be incremental and slow. Recent work demonstrated that using a memory buffer of previous successful trajectories can result in more effective policies. However, existing methods may overly exploit past successful experiences, which can encourage the agent to adopt sub-optimal and myopic behaviors. In this work, instead of focusing on good experiences with limited diversity, we propose to learn a trajectory-conditioned policy to follow and expand diverse past trajectories from a memory buffer. Our method allows the agent to reach diverse regions in the state space and improve upon the past trajectories to reach new states. We empirically show that our approach significantly outperforms count-based exploration methods (parametric approach) and self-imitation learning (parametric approach with non-parametric memory) on various complex tasks with local optima. In particular, without using expert demonstrations or resetting to arbitrary states, we achieve the state-of-the-art scores under five billion number of frames, on challenging Atari games such as Montezuma's Revenge and Pitfall.

연구 동기 및 목표

에이전트가 희소 보상 환경에서 희귀하게 비영점 보상을 받기 때문에 정책 최적화가 느리게 진행되는 문제를 해결하기 위해.
기존의 자기 모방 학습 방법이 과도하게 과거 성공적인 트래잭터리를 이용하여 최적화되지 않은, 시야가 짧은 행동을 유도하는 한계를 극복하기 위해.
저장된 성공적인 트래잭터리를 단순히 모방하는 것이 아니라, 그것들을 기반으로 확장함으로써 상태 공간의 다양한 영역을 탐색할 수 있도록 하기 위해.
지식 기반의 전문가 지시나 임의의 상태 리셋에 의존하지 않고도 복잡한 환경, 특히 局부 최적화가 존재하는 환경에서 샘플 효율성과 성능을 향상시키기 위해.

제안 방법

메모리 버퍼를 활용하여 과거 성공적인 트래잭터리를 저장함으로써 탐색을 이끌어내는 방법을 사용한다.
다양한 과거 트래잭터리를 기반으로 따라가고 일반화할 수 있도록 트래잭터리 조건부 정책을 훈련시켜, 원래 경로를 초월한 탐색을 촉진한다.
저장된 트래잭터리에 대한 모방 손실과 내재적 호기심 또는 내재적 형태 조정을 조합하여 새로운 상태 탐색을 장려하는 방식으로 정책을 최적화한다.
트래잭터리 컨텍스트에 따라 정책 업데이트를 동적으로 조건화함으로써 과거 성공의 이용과 새로운 상태 영역 탐색 사이의 균형을 이룬다.
카운트 기반 내재적 보상이나 외부 리셋 메커니즘에 의존하지 않고, 대신 메모리 버퍼를 다양한 행동 사전 지식의 원천으로 사용한다.

실험 결과

연구 질문

RQ1표준 자기 모방 학습에 비해 트래잭터리 조건부 정책이 희소 보상 환경에서 탐색 효율성을 향상시킬 수 있는가?
RQ2저장된 트래잭터리를 초월해 확장하는 것이 국부 최적화가 존재하는 환경에서 더 나은 일반화와 성능을 이끌 수 있는가?
RQ3전문가 지시나 임의의 상태 리셋 없이도 이 방법이 어려운 아케이드 게임에서 최신 기술 수준의 결과를 달성할 수 있는가?
RQ4과거 트래잭터리의 다양성이 에이전트가 새로운 고보상 상태를 발견하는 데 미치는 영향은 어떠한가?

주요 결과

제안된 방법은 희소 보상과 국부 최적화가 존재하는 복잡한 과제에서 카운트 기반 탐색 방법보다 뚜렷이 뛰어난 성능을 보였다.
전문가 지시나 임의의 상태 리셋 없이도 50억 프레임 기준 몽테주마의 레비유와 히트팔에서 최신 기술 수준의 성능을 달성했다.
과거 트래잭터리를 단순히 모방하는 것이 아니라 그것들을 기반으로 확장함으로써 에이전트가 상태 공간의 다양한 영역에 도달할 수 있었다.
과거 경험에 과도하게 의존하지 않음으로써 시야가 짧은 행동을 줄이고 장기적인 학습 효율성을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.