QUICK REVIEW

[논문 리뷰] Exploration by Random Network Distillation

Yuri Burda, Harrison Edwards|arXiv (Cornell University)|2018. 10. 30.

Reinforcement Learning in Robotics참고 문헌 41인용 수 257

한 줄 요약

본 논문은 random network distillation (RND)이라는 간단한 내재적 탐험 보너스를 제시하고, 이를 통해 어려운 Atari 게임에서 강력한 탐색을 가능하게 하며 시연 없이 Montezuma’s Revenge에서 최첨단 성과를 달성한다. 또한 내재적 보상과 외재 보상을 결합하는 방법을 제시하여 성능 향상을 보인다.

ABSTRACT

We introduce an exploration bonus for deep reinforcement learning methods that is easy to implement and adds minimal overhead to the computation performed. The bonus is the error of a neural network predicting features of the observations given by a fixed randomly initialized neural network. We also introduce a method to flexibly combine intrinsic and extrinsic rewards. We find that the random network distillation (RND) bonus combined with this increased flexibility enables significant progress on several hard exploration Atari games. In particular we establish state of the art performance on Montezuma's Revenge, a game famously difficult for deep reinforcement learning methods. To the best of our knowledge, this is the first method that achieves better than average human performance on this game without using demonstrations or having access to the underlying state of the game, and occasionally completes the first level.

연구 동기 및 목표

외재 보상이 희박하거나 얻기 어려울 때 딥 RL에서 탐색을 촉진한다.
고정된 무작위 네트워크의 출력을 예측하는 것을 기반으로 한 간단하고 확장 가능한 내재 보상을 제안한다.
정책 최적화에서 내재 보상과 외재 보상의 유연한 결합을 가능케 한다.
Monte zuma’s Revenge, Gravitar, Venture를 포함한 어려운 탐색 Atari 게임에서 효과를 입증한다.

제안 방법

관측치를 k차원 임베딩 f(x)로 매핑하는 고정된 무작위로 초기화된 타깃 네트워크를 정의한다.
타깃 임베딩에 대한 평균제곱오차를 최소화하도록 예측자 네트워크를 학습한다: E[||f_hat(x; θ_hat) - f(x)||^2].
예측자의 예측 오차를 내재 보상 i_t로 사용하고 이를 외재 보상 e_t에 더한다: r_t = e_t + i_t.
학습의 안정화를 위해 내재 보상을 누적 표준편차로 정규화하고 관측치를 화이트닝한다.
다른 보상 스트림과 할인에 대처하기 위해 두 개의 가치 헤드(V_E 및 V_I)로 내재 보상과 외재 보상을 결합한다.
성능을 평가하기 위해 많은 수의 병렬 환경으로 실험 규모를 확장한다.
여러 어려운 탐색 게임에서 효과를 입증하기 위해 RND를 dynamics 기반 탐색 및 PPO 베이스라인과 비교한다.

실험 결과

연구 질문

RQ1시연 없이 또는 내부 게임 상태에 대한 접근 없이도 희박한 보상의 환경에서 RND 기반 탐색 보너스가 탐색을 개선합니까?
RQ2외재 보상과 결합될 때 RND의 성능은 어떠하며, 내재 보상과 외재 보상에 대해 별도의 가치 헤드를 사용하는 것이 이점이 있습니까?
RQ3탐색과 성능을 위한 내재 보상과 외재 보상을 서로 다르게 하는 다양한 할인 인자가 미치는 영향은 무엇입니까?
RQ4병렬 경험의 양을 확장하는 것이 RND 기반 에이전트의 성능과 최종 결과를 개선할 수 있습니까?
RQ5여러 개의 어려운 탐색 Atari 게임에서 RND가 forward-dynamics 기반 탐색 방법 및 베이스라인과 어떻게 비교됩니까?

주요 결과

RND는 여러 어려운 Atari 게임에서 강력한 탐색을 달성하고 베이스라인을 능가하며 시연 없이 Montezuma’s Revenge에서 최첨단 성과를 달성한다.
에피소드가 아닌 내재 보상과 에피소드 기반 외재 보상을 결합하는 것이 (두 개의 가치 헤드를 사용하여) 여러 실험에서 에피소드 전용 설정보다 탐색을 개선한다.
더 높은 외재 할인 인자는 성능을 향상시키고, 더 높은 내재 할인 인자는 탐색에 해를 끼칠 수 있다.
더 많은 병렬 환경으로 더 큰 규모의 학습은 평균 보상을 높이고 최종 성능을 개선하며, 특히 순환 정책에서 그렇다.
RND는 Montezuma’s Revenge, Private Eye, Solaris에서 forward-dynamics 기반 탐색보다 우수하며, 여러 게임에서 PPO와 동등하거나 그 이상을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.