QUICK REVIEW

[논문 리뷰] Noisy Networks for Exploration

Meire Fortunato, Mohammad Gheshlaghi Azar|arXiv (Cornell University)|2017. 06. 30.

Reinforcement Learning in Robotics참고 문헌 44인용 수 387

한 줄 요약

NoisyNet은 네트워크 가중치에 학습 가능한 매개변수 노이즈를 도입하여 탐험을 주도하고, DQN, Dueling, 및 A3C의 기존 탐험 휴리스틱을 대체하며 57개의 Atari 게임에서 상당한 이득을 얻습니다.

ABSTRACT

We introduce NoisyNet, a deep reinforcement learning agent with parametric noise added to its weights, and show that the induced stochasticity of the agent's policy can be used to aid efficient exploration. The parameters of the noise are learned with gradient descent along with the remaining network weights. NoisyNet is straightforward to implement and adds little computational overhead. We find that replacing the conventional exploration heuristics for A3C, DQN and dueling agents (entropy reward and $ε$-greedy respectively) with NoisyNet yields substantially higher scores for a wide range of Atari games, in some cases advancing the agent from sub to super-human performance.

연구 동기 및 목표

Gradients를 통해 학습과 결합된 탐험 기전을 위한 노이즈 기반 메커니즘 동기 부여.
다양한 심층 RL 아키텍처에서 전통적 탐험 전략(epsilon-greedy, 엔트로피 보너스)을 NoisyNet으로 대체.
다양한 Atari 게임에서의 성능 개선을 시연하고 학습 중 노이즈가 어떻게 적응하는지 분석합니다.

제안 방법

가중치와 편향이 mu + sigma * epsilon로 표현되고 epsilon은 고정 분포에서 뽑히는 노이즈가 있는 노이즈 네트워크 계층을 정의합니다.
독립적이거나 인자화된 가우시안 노이즈를 사용하여 epsilon을 생성하고 확장 가능한 노이즈 변조를 가능하게 합니다.
네트워크 매개변수와 노이즈 매개변수를 모두 그라디언트 하강으로 학습하며, 노이즈 네트워크에 대한 손실의 몬테카를로 추정치를 사용합니다.
해당 선형 계층을 노이즈 계층으로 교체하고 별도의 탐험 트릭을 제거하여 DQN, Dueling, A3C에 NoisyNet을 적용합니다.
매 액션마다 노이즈 재샘플링이 있는 NoisyNet-DQN과 NoisyNet-Dueling; NoisyNet-A3C는 엔트로피 보너스를 사용하지 않고 롤아웃마다 노이즈를 샘플링합니다.
노이즈 매개변수의 mu와 sigma에 대한 초기화 방식과 NoisyNet 손실의 기울기 계산을 자세히 제공합니다.

실험 결과

연구 질문

RQ1신경망에 학습 가능한 매개변수 노이즈를 주입하면 딥 RL에서 탐험 효율이 개선됩니까？
RQ2NoisyNet이 서로 다른 딥 RL 알고리즘(DQN, Dueling, A3C) 전반에서 기존 탐험 전략을 대체할 수 있고 비슷하거나 더 나은 성능을 보입니까？
RQ3학습 중 노이즈 매개변수는 어떻게 진화하고, 작업의 난이도나 게임에 적응하여 탐험 모드가 맥락화됩니까？
RQ4NoisyNet 변형을 사용할 때 Atari 게임의 광범위한 세트에서 성능 증가가 관찰됩니까？
RQ5노이즈 접근법이 인자화된 노이즈와 호환되어 계산 오버헤드를 줄이면서도 성능을 해치지 않습니까？

주요 결과

NoisyNet 변형은 기준 대비 평균(mean) 및 중앙값(median) 인간 표준화 점수를 57개의 Atari 게임에서 크게 향상시켰습니다.
DQN: 평균 향상 약 48% (중위향상 83에서 123으로 인간 표준화 점수); NoisyNet-Dueling은 30% 중앙값 향상(132에서 172)입니다.
A3C에서 NoisyNet은 중앙값 인간 표준화 점수를 18% 상승시킵니다(80에서 94).
일부 게임들(예: Beam Rider, Asteroids, Freeway)에서 NoisyNet은 기준보다 더 나은 성능을 보여 초인간 성능을 달성합니다.
NoisyNet-A3C의 인자화 가우시안 노이즈는 계산 오버헤드를 줄이면서도 성능을 유지합니다.
NoisyNet은 수렴 시점이 아니라 학습 과정 전반에 걸쳐 개선을 유도하는 경우가 많아 학습 중 탐험이 향상되었음을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.