QUICK REVIEW

[论文解读] Distributed Deep Q-Learning

Hao Yi Ong, Kevin Chavez|arXiv (Cornell University)|Aug 18, 2015

Face and Expression Recognition参考文献 18被引用 60

一句话总结

本文提出了一种分布式深度Q-learning框架，利用DistBelief框架在多台机器上并行训练深度Q网络（DQN），实现异步、数据并行的训练。该方法在增加工作节点数量时，学习速度和平均奖励均实现线性可扩展性，展示了在简单Snake游戏环境中，仅通过原始像素和游戏得分进行端到端强化学习的高效性，且超参数调优极少。

ABSTRACT

We propose a distributed deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is based on the deep Q-network, a convolutional neural network trained with a variant of Q-learning. Its input is raw pixels and its output is a value function estimating future rewards from taking an action given a system state. To distribute the deep Q-network training, we adapt the DistBelief software framework to the context of efficiently training reinforcement learning agents. As a result, the method is completely asynchronous and scales well with the number of machines. We demonstrate that the deep Q-network agent, receiving only the pixels and the game score as inputs, was able to achieve reasonable success on a simple game with minimal parameter tuning.

研究动机与目标

为解决在高维感官输入（如原始视频帧）上训练深度强化学习智能体的挑战。
利用分布式计算框架，高效地在多台机器上扩展深度Q网络的训练。
实现直接从原始像素和游戏得分进行端到端学习，无需人工设计特征。
在受控环境中评估分布式DQN训练的可扩展性和收敛性。

提出的方法

将DistBelief软件框架适配以支持在多台机器上异步、数据并行地训练深度Q网络。
使用深度卷积神经网络来近似Q函数，将堆叠的、灰度化并下采样的游戏帧作为输入。
采用经验回放和目标网络技术以稳定训练，与原始DQN算法一致。
采用参数服务器架构，其中工作节点异步更新共享模型权重，并定期获取最新模型。
在堆叠四帧作为输入前，通过将原始游戏帧转换为灰度并下采样，以降低输入维度。
通过增加工作节点数量并调整小批量大小，以减少通信瓶颈，实现训练扩展。

实验结果

研究问题

RQ1分布式DQN训练是否能在工作节点数量增加时，实现学习速度的线性可扩展性？
RQ2异步参数更新在深度强化学习中如何影响收敛性和性能？
RQ3DQN智能体在不使用人工设计特征的情况下，能在多大程度上直接从原始像素和游戏得分学习到有效的控制策略？
RQ4分布式DQN训练中的主要性能瓶颈是什么，如何缓解？

主要发现

分布式DQN实现的平均奖励随工作节点数量增加呈线性增长，两个工作节点在每个时间步的平均奖励约为串行实现的两倍。
训练受计算瓶颈限制，主要来自梯度计算，通信和参数服务器更新延迟显著较小，尤其在大模型中更为明显。
该方法在模型规模和工作节点数量增加时均表现出良好扩展性，证明了大规模分布式DQN训练的可行性。
该算法在Snake游戏中仅需极少超参数调优即达到合理性能，能够直接从原始像素和游戏得分进行学习。
增大小批量大小可降低梯度方差并减少通信频率，从而减轻参数服务器更新延迟的影响。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。