[论文解读] Improving Generalization in Reinforcement Learning with Mixture Regularization
Mixreg 在来自不同环境的观测混合并使用插值监督信号来训练 RL 代理,在 Procgen 上对策略基和价值基方法的泛化能力有所提升。
Deep reinforcement learning (RL) agents trained in a limited set of environments tend to suffer overfitting and fail to generalize to unseen testing environments. To improve their generalizability, data augmentation approaches (e.g. cutout and random convolution) are previously explored to increase the data diversity. However, we find these approaches only locally perturb the observations regardless of the training environments, showing limited effectiveness on enhancing the data diversity and the generalization performance. In this work, we introduce a simple approach, named mixreg, which trains agents on a mixture of observations from different training environments and imposes linearity constraints on the observation interpolations and the supervision (e.g. associated reward) interpolations. Mixreg increases the data diversity more effectively and helps learn smoother policies. We verify its effectiveness on improving generalization by conducting extensive experiments on the large-scale Procgen benchmark. Results show mixreg outperforms the well-established baselines on unseen testing environments by a large margin. Mixreg is simple, effective and general. It can be applied to both policy-based and value-based RL algorithms. Code is available at https://github.com/kaixin96/mixreg .
研究动机与目标
- 增加训练数据多样性,以降低 RL 中的泛化差距。
- 通过混合观测和监督信号引入一种简单但有效的 RL 正则化。
- 证明 mixreg 适用于基于策略和基于价值的 RL 算法。
- 表明在 Procgen 上,mixreg 相较于标准数据增强方法能带来更大的泛化增益。
提出的方法
- 通过共轭线性组合训练批次中的两个观测 s_i 和 s_j 生成增强观测:s̃ = λ s_i + (1−λ) s_j,其中 λ ∼ Beta(α, α)。
- 将插值监督 ỹ = λ y_i + (1−λ) y_j(例如奖励或状态值)关联起来。
- 通过用插值项替代标准策略目标,将 mixreg 应用于基于策略的方法(例如 L̃^PG 包含混合状态和优势)。
- 通过用插值观测和奖励替代目标和损失项,将 mixreg 应用于基于价值的方法(例如 Rainbow)(如 L̃^DQN)。
- 表明混合监督信号对性能提升至关重要,超出仅混合观测的效果。
- 在 Procgen 基准测试上展示对 PPO(基于策略)和 Rainbow(基于价值)均适用。
实验结果
研究问题
- RQ1mixreg 是否能提升在未见测试环境上的零-shot 泛化性能?
- RQ2mixreg 是否在不同 RL 算法家族和模型规模上都有效?
- RQ3推动 mixreg 泛化增益的机制是什么(例如更平滑的策略、更好的表征学习等)?
主要发现
- Mixreg 在 500 级 Procgen 泛化上显著优于 PPO 基线。
- Mixreg 相较于标准数据增强和正则化(例如 cutout-color、random crop、batch norm、L2)提供更一致的增益。
- Mixreg 在不同模型规模上提升泛化,并且在 Rainbow(DQN 变体)上也有收益,无需任务特定调优。
- 与其他正则化(如 L2)结合时,Mixreg 取得进一步的提升。
- 如消融与微调分析所示,Mixreg 的收益来自同时实现更平滑的策略和更好的表征学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。