[论文解读] Asynchronous Methods for Deep Reinforcement Learning
本文提出异步并行的 actor-learners,在单一 CPU 机器上训练深度强化学习代理,提出包括 A3C 在内的四种标准 RL 算法的异步变体,在 Atari、连续控制和 3D 视觉导航任务上表现出色。
We propose a conceptually simple and lightweight framework for deep reinforcement learning that uses asynchronous gradient descent for optimization of deep neural network controllers. We present asynchronous variants of four standard reinforcement learning algorithms and show that parallel actor-learners have a stabilizing effect on training allowing all four methods to successfully train neural network controllers. The best performing method, an asynchronous variant of actor-critic, surpasses the current state-of-the-art on the Atari domain while training for half the time on a single multi-core CPU instead of a GPU. Furthermore, we show that asynchronous actor-critic succeeds on a wide variety of continuous motor control problems as well as on a new task of navigating random 3D mazes using a visual input.
研究动机与目标
- 提出一个轻量、稳定的深度 RL 框架,在利用并行性的同时避免经验回放。
- 提出 one-step Q-learning、one-step Sarsa、n-step Q-learning 以及 advantage actor-critic (A3C) 的异步变体。
- 展示异步方法在离散和连续任务中的稳定性、可扩展性和数据效率。
提出的方法
- 使用多个 CPU 线程作为异步 actor-learner,在策略在线上或离线更新共享的神经网络模型。
- 通过并行 actor 的多样化探索来稳定学习,从而避免经验回放。
- 在异步 setting 中应用 forward-view 的 n-step 回报来更新神经网络。
- 采取 Hogwild!-style 的更新方案,在线程间共享优化器统计信息。
- 在 A3C 中,联合学习策略和值函数,并加入熵项以促进探索。
- 尝试带动量的 SGD 和 RMSProp,强调共享的 RMSProp 统计以提高鲁棒性。
实验结果
研究问题
- RQ1在没有经验回放的情况下,异步并行 actor-learners 是否能够稳定训练深度神经网络控制器?
- RQ2Q-learning、Sarsa、n-step Q-learning 和 A3C 的异步变体是否在 Atari、TORCS、MuJoCo 和 Labyrinth 等任务中有效?
- RQ3并行性是否在离散和连续任务上同时带来加速和数据效率,同时保持性能?
主要发现
- 四种异步方法均在 Atari 2600 游戏上成功训练了神经网络控制器。
- A3C 在 Atari 上达到最先进的性能,在使用 16 个 CPU 内核且无 GPU 的情况下,以一半训练时间击败了此前方法。
- 异步方法随并行工作者数量的增加而良好扩展,获得显著的加速。
- A3C 在使用 MuJoCo 的连续控制任务以及 Labyrinth 的视觉 3D 迷宫导航中也保持了良好性能。
- 并行的 actor-learners 对基于值的方法在没有回放的情况下的学习提供了稳定作用。
- 在多种设定下,使用 CPU 内核进行 A3C 的训练优于基于 GPU 的 DQN,并在不同学习率下提供鲁棒学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。