QUICK REVIEW

[논문 리뷰] Diversity-Driven Exploration Strategy for Deep Reinforcement Learning

Zhang-Wei Hong, Tzu-Yun Shann|arXiv (Cornell University)|2018. 02. 13.

Reinforcement Learning in Robotics참고 문헌 26인용 수 50

한 줄 요약

이 논문은 거리 기반 정규화 항을 손실에 추가하여 정책 다양성을 촉진하고 더 나은 탐사를 가능하게 하는 다양성 주도 탐색 방법을 제시하며, 적응적 스케일링을 적용하고 오프- 및 온-policy DRL에 적용 가능하며 gridworld, Atari, MuJoCo에서 테스트되었다.

ABSTRACT

Efficient exploration remains a challenging research problem in reinforcement learning, especially when an environment contains large state spaces, deceptive local optima, or sparse rewards. To tackle this problem, we present a diversity-driven approach for exploration, which can be easily combined with both off- and on-policy reinforcement learning algorithms. We show that by simply adding a distance measure to the loss function, the proposed methodology significantly enhances an agent's exploratory behaviors, and thus preventing the policy from being trapped in local optima. We further propose an adaptive scaling method for stabilizing the learning process. Our experimental results in Atari 2600 show that our method outperforms baseline approaches in several tasks in terms of mean scores and exploration efficiency.

연구 동기 및 목표

DRL에서 견고한 탐색을 촉진하여 기만적이고 드문 보상을 극복한다.
최근 정책으로부터의 발산을 촉진하는 손실 함수 보강을 개발한다.
이 접근법을 오프폴리시와 온폴리시 알고리즘 모두와 호환되게 만든다.
탐색과 활용 간의 균형을 위한 적응 스케일링 전략을 제안한다.

제안 방법

손실 L_D = L - E_{pi' in Pi'}[ alpha D(pi, pi') ] 를 정의하여 정책 다양성을 촉진한다.
현재 정책과 최근 정책 Pi' 사이의 거리 측정 D(KL-발산, L2, 또는 MSE)을 사용한다.
Div-DQN과 Div-DDPG에 거리 항을 손실 함수에 포함시켜 메서드를 적용한다.
Div-A2C는 거리 항을 계산하기 위해 최근 정책 집합을 유지한다.
거리 기반 및 성능 기반 방법을 통한 alpha의 적응적 스케일링을 도입한다.
훈련 안정화를 위해 거리 측정 D를 클리핑한다.

실험 결과

연구 질문

RQ1다양성 주도 탐색은 큰 상태 공간, 기만적 보상, 또는 드문 보상이 있는 환경에서 학습을 개선하는가?
RQ2거리 기반 손실 항을 오프폴리시와 온폴리시 DRL 알고리즘에 효과적으로 통합할 수 있는가?
RQ3적응적 스케일링 전략은 학습의 안정성과 성능에 어떤 영향을 주는가?
RQ4서로 다른 거리 측정(KL, L2, MSE)이 탐색 효율성과 최종 성능에 미치는 영향은 무엇인가?

주요 결과

다양성 주도 탐색은 기만적이거나 드문 보상이 있는 거대한 gridworld에서 더 나은 탐색과 정책 성능으로 이어진다.
Div-DQN 및 Div-A2C는 Atari 2600 게임과 MuJoCo 작업에서 베이스라인보다 우수하거나 비슷한 성능을 달성하며, 많은 경우 빠른 학습을 보인다.
거리 기반 및 성능 기반의 적응 스케일링 전략은 특히 온폴리시 방법에서 안정성과 최종 성능을 향상시킨다.
이 접근법은 최근 정책들과 다른 정책을 시도하게 하여 새로운 상태의 방문을 촉진함으로써 탐색을 개선한다.
일반적인 탐색 방법과 비교하여, 제안된 방법은 여러 벤치마크에서 지역 최적과 기만적 보상을 더 효과적으로 회피한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.