[论文解读] Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under Data Augmentation
SVEA 在离策略强化学习中的数据增强下稳定了 Q-value 估计,提升了 ConvNets 和 ViT 架构在 DMControl 和机器人任务上的稳定性与泛化能力。
While agents trained by Reinforcement Learning (RL) can solve increasingly challenging tasks directly from visual observations, generalizing learned skills to novel environments remains very challenging. Extensive use of data augmentation is a promising technique for improving generalization in RL, but it is often found to decrease sample efficiency and can even lead to divergence. In this paper, we investigate causes of instability when using data augmentation in common off-policy RL algorithms. We identify two problems, both rooted in high-variance Q-targets. Based on our findings, we propose a simple yet effective technique for stabilizing this class of algorithms under augmentation. We perform extensive empirical evaluation of image-based RL using both ConvNets and Vision Transformers (ViT) on a family of benchmarks based on DeepMind Control Suite, as well as in robotic manipulation tasks. Our method greatly improves stability and sample efficiency of ConvNets under augmentation, and achieves generalization results competitive with state-of-the-art methods for image-based RL in environments with unseen visuals. We further show that our method scales to RL with ViT-based architectures, and that data augmentation may be especially important in this setting.
研究动机与目标
- 推动从视觉观测中学习对未见环境具有泛化能力的鲁棒策略。
- 识别在离策略 RL 中应用数据增强时的不稳定原因。
- 提出一个简单有效的稳定化框架,尽量降低由增强引起的方差与过度正则化。
- 展示其在多样化任务和基准测试中对 ConvNets 与 Vision Transformers 的可扩展性。
提出的方法
- 分析在离策略 Q 学习中应用数据增强所产生的不稳定源。
- 介绍 SVEA:一个带有两个数据流(增强和未增强)以及混合 Q 学习目标的数据增强框架。
- 仅将增强应用于当前状态的 Q 值估计,而不应用于引导的目标 Q 值。
- 使用数据混合目标,联合优化增强和未增强数据上的 Q 值。
- 保留演员(若存在)从未增强数据学习,并通过编码器共享来促进泛化。
- 提供一个实现,不需要额外的前向传播或可学习参数。
实验结果
研究问题
- RQ1在带神经网络的离策略 Q 学习中使用数据增强时,主要的不稳定原因是什么?
- RQ2一个简单的对增强敏感的训练目标是否能在不增加计算成本的情况下稳定 Q 值估计?
- RQ3所提出的稳定化方法在基于图像的 RL 基准测试上对 ConvNets 与 Vision Transformers 的扩展性如何?
- RQ4该方法是否提升了对 DMControl 相关基准及机器人操控任务中未见视觉场景的泛化能力?
主要发现
- SVEA 在 DMControl 任务中对强增强显著提高了 Q 学习的稳定性和样本效率。
- 与最先进的基于图像的 RL 方法相比,SVEA 在渐近性能和泛化方面具有竞争力甚至更优。
- 这两个关键组成部分——将增强限制在当前状态 Q 值估计以及双流混合目标——降低了方差和过度正则化。
- SVEA 可扩展到基于 ViT 的体系结构,在这些体系结构中,增强尤其有利于避免过拟合。
- 使用更多增强(通过更高的 K、M)的 DrQ 风格基线成本更高,而 SVEA 以更低成本达到甚至超越性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。