QUICK REVIEW

[论文解读] Parameter Space Noise for Exploration

Matthias Plappert, Rein Houthooft|arXiv (Cornell University)|Jun 6, 2017

Reinforcement Learning in Robotics参考文献 34被引用 364

一句话总结

本文提出将参数空间噪声作为一种探索方法，并展示通过扰动网络参数可以改善深度强化学习的探索，在若干离线和在线策略算法中超越动作空间噪声。它在高维离散和连续任务（包括稀疏奖励）中显示出益处，并在样本效率上优于进化策略。

ABSTRACT

Deep reinforcement learning (RL) methods generally engage in exploratory behavior through noise injection in the action space. An alternative is to add noise directly to the agent's parameters, which can lead to more consistent exploration and a richer set of behaviors. Methods such as evolutionary strategies use parameter perturbations, but discard all temporal structure in the process and require significantly more samples. Combining parameter noise with traditional RL methods allows to combine the best of both worlds. We demonstrate that both off- and on-policy methods benefit from this approach through experimental comparison of DQN, DDPG, and TRPO on high-dimensional discrete action environments as well as continuous control tasks. Our results show that RL with parameter noise learns more efficiently than traditional RL with action space noise and evolutionary strategies individually.

研究动机与目标

激励深度强化学习中的探索挑战以及动作空间噪声的局限性。
提出将参数空间噪声作为神经策略的结构化探索机制。
展示参数空间噪声如何与离策略和在线策略算法（DQN、DDPG、TRPO）集成。
在高维和稀疏奖励任务中展示改进的探索。
提供自适应扩展参数空间噪声的方案，而无需额外超参数。

提出的方法

将策略表示为参数化函数，并通过高斯噪声扰动参数向量： theta-tilde = theta + N(0, sigma^2 I)。
在每个回合开始时对策略进行扰动，并在整个 rollout 期间保持不变，以引入时间结构。
使用层归一化以在深度网络中实现有意义的扰动。
通过 sigma 更新将诱导的动作空间距离与目标阈值匹配来实现自适应噪声缩放（Equation 1）。
推导对策略梯度为基础的在线策略方法在参数有噪声、遵循重参数化技巧且固定 Sigma 的情况下的更新，且带自适应缩放（附录 B/C）。
将参数空间噪声应用于 DQN（离策略）和 DDPG/TRPO（离策略/在线策略），并在各任务中与动作空间噪声进行比较。

实验结果

研究问题

RQ1与动作空间噪声相比，参数空间噪声是否能提升最先进 RL 算法（DQN、DDPG、TRPO）的探索？
RQ2参数空间噪声是否能在动作空间噪声难以学习的稀疏奖励环境中实现学习？
RQ3在样本效率和标准基准测试表现方面，参数空间噪声与进化策略相比如何？
RQ4如何自适应地缩放参数空间噪声以保持稳定且有效的探索？
RQ5参数空间噪声对离策略和在线策略学习设置是否都有益？

主要发现

在高维离散和连续任务中，参数空间噪声通常优于动作空间噪声，尤其是在一致性很重要的场景。
在连续控制中，自适应参数空间噪声显著提升 HalfCheetah 的表现，并有助于 Walker2D 等任务中摆脱次优局部最优。
参数空间噪声使在若干稀疏奖励的连续任务中实现学习成为可能，而动作空间噪声则失败（例如 SparseCartpoleSwingup、SparseMountainCar）。
在关键环境中，带参数空间噪声的 DDPG 能实现更高回报和更好的探索，相较于无相关或相关的动作空间噪声。
与进化策略相比，40M 帧的参数空间噪声在 21 个 Atari 游戏中有 15 场超过 ES，尽管数据量显著更少，表明更好的样本效率。
该方法与现有改进（如 Double DQN、优先回放、对决网络）是互补的，并且可以结合以获得进一步的提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。