Skip to main content
QUICK REVIEW

[论文解读] Distributed Deep Q-Learning

Hao Yi Ong, Kevin Chavez|arXiv (Cornell University)|Aug 18, 2015
Face and Expression Recognition参考文献 18被引用 60
一句话总结

本文提出了一种分布式深度Q-learning框架,利用DistBelief框架在多台机器上并行训练深度Q网络(DQN),实现异步、数据并行的训练。该方法在增加工作节点数量时,学习速度和平均奖励均实现线性可扩展性,展示了在简单Snake游戏环境中,仅通过原始像素和游戏得分进行端到端强化学习的高效性,且超参数调优极少。

ABSTRACT

We propose a distributed deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is based on the deep Q-network, a convolutional neural network trained with a variant of Q-learning. Its input is raw pixels and its output is a value function estimating future rewards from taking an action given a system state. To distribute the deep Q-network training, we adapt the DistBelief software framework to the context of efficiently training reinforcement learning agents. As a result, the method is completely asynchronous and scales well with the number of machines. We demonstrate that the deep Q-network agent, receiving only the pixels and the game score as inputs, was able to achieve reasonable success on a simple game with minimal parameter tuning.

研究动机与目标

  • 为解决在高维感官输入(如原始视频帧)上训练深度强化学习智能体的挑战。
  • 利用分布式计算框架,高效地在多台机器上扩展深度Q网络的训练。
  • 实现直接从原始像素和游戏得分进行端到端学习,无需人工设计特征。
  • 在受控环境中评估分布式DQN训练的可扩展性和收敛性。

提出的方法

  • 将DistBelief软件框架适配以支持在多台机器上异步、数据并行地训练深度Q网络。
  • 使用深度卷积神经网络来近似Q函数,将堆叠的、灰度化并下采样的游戏帧作为输入。
  • 采用经验回放和目标网络技术以稳定训练,与原始DQN算法一致。
  • 采用参数服务器架构,其中工作节点异步更新共享模型权重,并定期获取最新模型。
  • 在堆叠四帧作为输入前,通过将原始游戏帧转换为灰度并下采样,以降低输入维度。
  • 通过增加工作节点数量并调整小批量大小,以减少通信瓶颈,实现训练扩展。

实验结果

研究问题

  • RQ1分布式DQN训练是否能在工作节点数量增加时,实现学习速度的线性可扩展性?
  • RQ2异步参数更新在深度强化学习中如何影响收敛性和性能?
  • RQ3DQN智能体在不使用人工设计特征的情况下,能在多大程度上直接从原始像素和游戏得分学习到有效的控制策略?
  • RQ4分布式DQN训练中的主要性能瓶颈是什么,如何缓解?

主要发现

  • 分布式DQN实现的平均奖励随工作节点数量增加呈线性增长,两个工作节点在每个时间步的平均奖励约为串行实现的两倍。
  • 训练受计算瓶颈限制,主要来自梯度计算,通信和参数服务器更新延迟显著较小,尤其在大模型中更为明显。
  • 该方法在模型规模和工作节点数量增加时均表现出良好扩展性,证明了大规模分布式DQN训练的可行性。
  • 该算法在Snake游戏中仅需极少超参数调优即达到合理性能,能够直接从原始像素和游戏得分进行学习。
  • 增大小批量大小可降低梯度方差并减少通信频率,从而减轻参数服务器更新延迟的影响。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。