QUICK REVIEW

[论文解读] Learning values across many orders of magnitude

Hado van Hasselt, Arthur Guez|arXiv (Cornell University)|Feb 24, 2016

Reinforcement Learning in Robotics参考文献 30被引用 87

一句话总结

本文提出 Pop-Art（策略加权自适应奖励变换），一种在强化学习中自适应归一化时序差分目标的方法，以处理价值函数跨越多个数量级的问题。通过使用运行估计的均值和方差动态缩放目标值，Pop-Art 实现了无需奖励裁剪的稳定训练，在多种 Atar i 游戏中达到最先进性能，同时在不同奖励尺度的任务间保持良好的泛化能力。

ABSTRACT

Most learning algorithms are not invariant to the scale of the function that is being approximated. We propose to adaptively normalize the targets used in learning. This is useful in value-based reinforcement learning, where the magnitude of appropriate value approximations can change over time when we update the policy of behavior. Our main motivation is prior work on learning to play Atari games, where the rewards were all clipped to a predetermined range. This clipping facilitates learning across many different games with a single learning algorithm, but a clipped reward function can result in qualitatively different behavior. Using the adaptive normalization we can remove this domain-specific heuristic without diminishing overall performance.

研究动机与目标

解决因不同强化学习任务中价值函数幅度差异巨大而导致的训练不稳定与超参数敏感问题。
消除对领域特定奖励裁剪的需求，避免其扭曲学习目标并可能导致生成定性不同的策略。
使单一学习算法能够泛化于奖励尺度差异巨大的环境（如 Atar i 域）。
通过在整个学习过程中保持归一化目标，提升基于值函数的深度强化学习的训练稳定性和性能。
提供一种通用的归一化技术，可扩展至 DQN 之外的应用，包括监督学习和非平稳在线设置。

提出的方法

提出使用指数移动平均计算的运行均值和方差，对时序差分目标进行自适应归一化。
引入一种变换，利用估计的均值和标准差对目标值进行重加权，使其保持在稳定且归一化的范围内。
采用参数化变换实时调整目标分布，确保在策略更新过程中保持一致的尺度。
使用可微分的更新规则，保持对价值函数线性变换的不变性，从而提升优化稳定性。
将该方法应用于 Double DQN，以自适应归一化替代固定的奖励裁剪，从而在多种游戏中保持高性能。
推导理论保证，证明归一化后的目标值在策略更新下保持一致性，确保收敛稳定性。

实验结果

研究问题

RQ1自适应归一化价值目标是否能在不依赖固定奖励裁剪的前提下，提升深度强化学习的训练稳定性和性能？
RQ2移除奖励裁剪的启发式方法是否能带来在多样化环境中更优或更具泛化能力的策略？
RQ3在使用自适应归一化时，是否能通过固定超参数的单一学习算法泛化于奖励幅度差异巨大的环境？
RQ4在 Atar i 游戏上，自适应归一化与固定裁剪相比，在样本效率和最终性能方面表现如何？
RQ5自适应归一化在多大程度上降低了基于值函数强化学习中超参数选择的敏感性？

主要发现

Pop-Art 在 30 款 Atar i 游戏中的 25 款上优于使用固定奖励裁剪的 Double DQN，尤其在高量级游戏（如 Ms. Pac-Man 和 Video Pinball）中表现显著提升。
在 Video Pinball 游戏中，Pop-Art 达到原始得分 309,941.90，远超使用裁剪的 Double DQN 的 25,897.00 分。
在 Ms. Pac-Man 中，Pop-Art 得分为 4,963.80，高于使用裁剪的 2,711.40 分，表明其在高奖励场景中学习能力更强。
Pop-Art 在所有游戏中均保持优异性能，包括稀疏奖励或负奖励环境，且无需领域特定调参。
该方法可在奖励尺度跨越多个数量级的环境中实现稳定训练，例如不同游戏中从 -10,000 到 +100,000 的奖励范围。
消融实验表明，移除奖励裁剪并结合 Pop-Art 可实现更好泛化性，并避免基线方法中因裁剪导致的策略退化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。