QUICK REVIEW

[论文解读] Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning

Denis Yarats, Rob Fergus|arXiv (Cornell University)|Jul 20, 2021

Reinforcement Learning in Robotics参考文献 43被引用 67

一句话总结

DrQ-v2 是一种简单的无模型强化学习算法，用于基于图像的连续控制，使用数据增强和架构调整在样本效率上达到最先进水平，并能够从像素实现人形行走，相较于先前方法具有显著改进的计算负担。

ABSTRACT

We present DrQ-v2, a model-free reinforcement learning (RL) algorithm for visual continuous control. DrQ-v2 builds on DrQ, an off-policy actor-critic approach that uses data augmentation to learn directly from pixels. We introduce several improvements that yield state-of-the-art results on the DeepMind Control Suite. Notably, DrQ-v2 is able to solve complex humanoid locomotion tasks directly from pixel observations, previously unattained by model-free RL. DrQ-v2 is conceptually simple, easy to implement, and provides significantly better computational footprint compared to prior work, with the majority of tasks taking just 8 hours to train on a single GPU. Finally, we publicly release DrQ-v2's implementation to provide RL practitioners with a strong and computationally efficient baseline.

研究动机与目标

激发并开发一个样本高效、计算友好的无模型算法，用于视觉连续控制。
通过引入算法和实现方面的改进，来改进 DrQ，以从像素观测中解决更困难的任务。
在缩短训练时间的同时，展示在与基于模型的方法相比具有竞争力或更优秀的性能。
为研究人员和实践者提供一个开源、实用的基准实现。

提出的方法

采用基于 DDPG 的 actor-critic 主干，配备两个 Q-function 以实现裁剪双 Q-learning。
引入 n-step 回报以加速 reward 传播。
对像素观测应用通过双线性插值的随机平移进行数据增强。
使用更大的回放缓冲区和调整后的超参数（例如更小的批量、较小的学习率），以提升稳定性和性能。
使用 grid_sample 实现更快的图像增强管线，以提升吞吐量。
在训练过程中衰减探索噪声 σ(t)，以平衡探索与利用。

实验结果

研究问题

RQ1一个无模型算法是否能直接从像素观测解决复杂的人形行走问题？
RQ2哪些算法改动与实现优化的组合能够在视觉连续控制中实现最优的样本效率和最快的墙钟训练？
RQ3在样本效率和计算需求方面，DrQ-v2 与基于模型的方法相比如何？
RQ4推动基于图像的强化学习性能提升的关键因素有哪些（例如回放缓冲区大小、n-step 回报、探索调度）？
RQ5是否存在一个简单、可扩展的视觉 RL 基线，能够让更多人参与该问题的研究？

主要发现

DrQ-v2 在 DeepMind Control Suite 的简单、中等、困难任务中，在样本效率方面优于现有的先前无模型方法。
DrQ-v2 能从像素解决人形行走任务，此前无模型方法无法解决。
DrQ-v2 在相同硬件上比先前的 DrQ 实现大约快 3.5 倍，且环境帧吞吐率（FPS）更高。
DrQ-v2 在单个 NVIDIA V100 GPU 上可以达到 96 FPS，使许多任务在约 2.9–86 小时内完成，取决于难度。
与 Dreamer-v2（基于模型）相比，DrQ-v2 在若干任务上实现了可比甚至更好的墙 clock 效率，尽管 Dreamer-v2 在某些任务上表现更好；总体而言，DrQ-v2 由于更高的吞吐量而训练更快。
消融实验表明，切换到带有 3-step 回报的 DDPG 主干、使用更大的回放缓冲区、以及衰减的探索调度显著提升了性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。