QUICK REVIEW

[论文解读] Noisy Networks for Exploration

Meire Fortunato, Mohammad Gheshlaghi Azar|arXiv (Cornell University)|Jun 30, 2017

Reinforcement Learning in Robotics参考文献 44被引用 387

一句话总结

NoisyNet 向网络权重注入可学习的参数噪声来驱动探索，替代 DQN、Dueling 和 A3C 中的标准探索启发式，在57个 Atari 游戏中获得显著提升。

ABSTRACT

We introduce NoisyNet, a deep reinforcement learning agent with parametric noise added to its weights, and show that the induced stochasticity of the agent's policy can be used to aid efficient exploration. The parameters of the noise are learned with gradient descent along with the remaining network weights. NoisyNet is straightforward to implement and adds little computational overhead. We find that replacing the conventional exploration heuristics for A3C, DQN and dueling agents (entropy reward and $ε$-greedy respectively) with NoisyNet yields substantially higher scores for a wide range of Atari games, in some cases advancing the agent from sub to super-human performance.

研究动机与目标

激发一种将探索与学习通过梯度调整的权重扰动耦合起来的基于噪声的探索机制。
用 NoisyNet 替代在多种深度强化学习架构中的传统探索策略（epsilon-greedy、熵奖励）。
展示在广泛的 Atari 游戏集上的性能提升，并分析学习过程中的噪声如何自适应。

提出的方法

定义带有噪声的网络层，其中权重和偏置为 mu + sigma * epsilon，epsilon 来自固定分布。
使用独立高斯噪声或分解高斯噪声生成 epsilon，以实现可扩展的噪声扰动。
通过梯度下降同时训练网络参数和噪声参数，并对带噪声网络的损失进行蒙特卡洛估计。
通过用带噪声层替换相应的线性层并移除独立的探索技巧，将 NoisyNet 应用于 DQN、Dueling 和 A3C。
使用 NoisyNet-DQN 和 NoisyNet-Dueling，在每次行动前重新采样噪声；NoisyNet-A3C 不使用熵奖励并在每次 rollout 时采样噪声。
提供带噪声参数 mu 和 sigma 的初始化方案，并详细给出 NoisyNet 损失的梯度计算。

实验结果

研究问题

RQ1在深度强化学习中注入可学习的参数噪声是否能提高探索效率？
RQ2NoisyNet 是否能够在不同的深度 RL 算法（DQN、Dueling、A3C）中替代传统的探索策略，从而获得可比或更好的性能？
RQ3在训练过程中噪声参数如何演化，是否会对任务难度或游戏进行自适应？
RQ4在大量 Atari 游戏中使用 NoisyNet 变体的实际性能提升有多大？
RQ5噪声方法是否与分解噪声兼容，以在不牺牲 performance 的前提下降低计算开销？

主要发现

基线	NoisyNet	改进（中位数）
均值（DQN）	379	48%
均值（Dueling）	633	30%
均值（A3C）	347	18%
中位数（DQN）	123
中位数（Dueling）	172
中位数（A3C）	94

与基线相比，NoisyNet 变体在 57 个 Atari 游戏中的均值和中位数的人类标准化分数显著提升。
DQN：均值提升约 48%（中位提升 83 到 123 的人类标准化分数）；NoisyNet-Dueling 显示中位提升 30%（132 到 172）。
A3C 使用 NoisyNet 的中位人类标准化分数提升 18%（80 到 94）。
在若干游戏（如 Beam Rider、Asteroids、Freeway）中，NoisyNet 实现了超越人类的表现，而基线落后。
NoisyNet-A3C 中的分解高斯噪声在降低计算开销的同时保持了性能。
NoisyNet 常在训练过程中就带来改进，而不仅在收敛时才有提升，表明在学习期间探索得到增强。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。