[论文解读] Generalization in Reinforcement Learning with Selective Noise Injection and Information Bottleneck
该论文提出 Selective Noise Injection (SNI) 和 Information Bottleneck Actor Critic (IBAC),并显示将 IB 与 SNI 结合可在 CoinRun 和 Multiroom 基准上实现强化学习的最优泛化。
The ability for policies to generalize to new environments is key to the broad application of RL agents. A promising approach to prevent an agent's policy from overfitting to a limited set of training environments is to apply regularization techniques originally developed for supervised learning. However, there are stark differences between supervised learning and RL. We discuss those differences and propose modifications to existing regularization techniques in order to better adapt them to RL. In particular, we focus on regularization techniques relying on the injection of noise into the learned function, a family that includes some of the most widely used approaches such as Dropout and Batch Normalization. To adapt them to RL, we propose Selective Noise Injection (SNI), which maintains the regularizing effect the injected noise has, while mitigating the adverse effects it has on the gradient quality. Furthermore, we demonstrate that the Information Bottleneck (IB) is a particularly well suited regularization technique for RL as it is effective in the low-data regime encountered early on in training RL agents. Combining the IB with SNI, we significantly outperform current state of the art results, including on the recently proposed generalization benchmark Coinrun.
研究动机与目标
- 为提升在未见环境中的泛化,对 RL 引入正则化动机。
- 在不破坏训练稳定性的前提下将随机正则化技巧应用于 RL。
- 促进特征压缩以在非平稳数据分布下提高鲁棒性。
- 提出 IBAC,以鼓励在 actor-critic RL 中学习紧缩、可迁移的表示。
- 在具有挑战性的泛化任务上评估所提出的方法并与现有工作进行比较。
提出的方法
- 引入 Selective Noise Injection (SNI),仅在有益时应用随机正则化,否则以确定性方式处理。
- 将 Dropout 和变分信息瓶颈(VIB)移植到 RL;用 SNI 缓解不利的梯度和数据质量效应。
- 通过将 IB 原则整合到 actor-critic RL 框架来开发 Information Bottleneck Actor Critic (IBAC)。
- 将 IBAC 目标函数表述为 actor-critic 损失、IB 正则化和熵/正则化项的组合。
- 将 IBAC 与 SNI 结合以降低离策略校正的方差并改善泛化。
- 在以 PPO 为基础的 actor-critic 设置中,在 Multiroom 和 CoinRun 基准上进行评估。
实验结果
研究问题
- RQ1如何在不损害梯度质量和数据效率的前提下将随机正则化安全地整合到 RL 中?
- RQ2选择性噪声应用是否在不 destabilize 的情况下保留正则化效果?
- RQ3基于信息瓶颈的正则化在 RL 的低数据早期阶段是否能提升泛化?
- RQ4将 IBAC 与 SNI 结合是否在像 Multiroom 和 CoinRun 这样的具挑战性的 RL 基准上实现更优的泛化性能?
主要发现
- Selective Noise Injection 可以降低噪声对 rollout 质量和梯度方差的不利影响。
- IBAC 鼓励输入特征的压缩,从而在 RL 中特别是在数据稀缺的情形下提升泛化能力。
- IBAC 与 SNI 的结合在 CoinRun 和 Multiroom 基准上优于现有最优结果。
- 当与 IBAC 一起使用随机正则化时,SNI 有助于稳定训练。
- 在 CoinRun 上,结合 SNI 的 IBAC 显著优于基线及仅依赖非随机技术的其他正则化方案。
- 在没有适当正则化的情况下,IBAC 可能表现不佳,尤其是在更高的随机性下;SNI 可缓解这一风险。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。