QUICK REVIEW

[论文解读] Regularization Matters in Policy Optimization

Zhuang Liu, Xuanlin Li|arXiv (Cornell University)|Oct 21, 2019

Reinforcement Learning in Robotics参考文献 47被引用 18

一句话总结

本论文对连续控制任务中策略优化的常规正则化技术（如L2、L1、Dropout和批量归一化）进行了首次全面的实证研究。研究发现，对策略网络施加L2正则化能显著提升性能，尤其在更困难的任务上，通常优于熵正则化，且仅对策略网络进行正则化最为有效。

ABSTRACT

Deep Reinforcement Learning (Deep RL) has been receiving increasingly more attention thanks to its encouraging performance on a variety of control tasks. Yet, conventional regularization techniques in training neural networks (e.g., $L_2$ regularization, dropout) have been largely ignored in RL methods, possibly because agents are typically trained and evaluated in the same environment, and because the deep RL community focuses more on high-level algorithm designs. In this work, we present the first comprehensive study of regularization techniques with multiple policy optimization algorithms on continuous control tasks. Interestingly, we find conventional regularization techniques on the policy networks can often bring large improvement, especially on harder tasks. Our findings are shown to be robust against training hyperparameter variations. We also compare these techniques with the more widely used entropy regularization. In addition, we study regularizing different components and find that only regularizing the policy network is typically the best. We further analyze why regularization may help generalization in RL from four perspectives - sample complexity, reward distribution, weight norm, and noise robustness. We hope our study provides guidance for future practices in regularizing policy optimization algorithms. Our code is available at https://github.com/xuanlinli17/iclr2021_rlreg .

研究动机与目标

研究常规深度学习正则化技术（如L2、Dropout）在深度强化学习策略优化中的有效性。
将这些技术与策略梯度方法中广泛使用的熵正则化进行比较。
确定当训练与评估环境相同时，正则化是否能提升性能，从而挑战‘泛化无需依赖’的假设。
确定在策略网络（策略网络与价值网络）中，应正则化哪一组件以实现最佳性能。
从样本复杂度、回报分布、权重范数和噪声鲁棒性等角度，分析正则化如何提升强化学习中泛化能力的内在机制。

提出的方法

在四种策略优化算法（SAC、PPO、TRPO和A2C）上，实证评估L2、L1、Dropout、权重裁剪和批量归一化。
将正则化应用于不同组件（策略网络、价值网络或两者），并在MuJoCo基准的多个连续控制环境中比较性能。
通过在多种设置下进行随机超参数搜索，评估研究结果的稳健性。
将正则化技术与基线（无正则化）和熵正则化进行对比。
开展消融研究，以隔离正则化对策略网络与价值网络的独立影响。
结合理论与实证分析，研究正则化对训练动态、权重范数以及噪声鲁棒性的影响。

实验结果

研究问题

RQ1当训练与评估环境相同时，L2和Dropout等常规正则化技术是否能提升连续控制任务中策略优化的性能？
RQ2在不同策略优化算法中，常规正则化技术的性能与熵正则化相比如何？
RQ3在策略优化中，哪个网络组件（策略网络或价值网络）从正则化中获益最多？
RQ4正则化的有效性是否随任务难度或超参数设置而变化？
RQ5正则化通过何种内在机制提升深度强化学习中的泛化能力？

主要发现

在所有评估的算法和环境中，对策略网络施加L2正则化均能持续提升性能，且在统计上显著，尤其在更困难的任务上表现更优。
L2正则化通常优于熵正则化，且在平均回报和样本效率方面均有提升。
Dropout和批量归一化仅在异策略算法（如SAC、PPO）中提升性能，而在同策略算法中常导致性能下降。
对价值网络进行正则化无益，甚至可能降低性能，表明仅应对策略网络进行正则化。
正则化的有效性在广泛的超参数设置和网络架构下均保持稳健。
将L2正则化与熵正则化结合仅带来边际或无额外增益，表明L2正则化本身已足够实现性能提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。