QUICK REVIEW

[论文解读] Deep Reinforcement Learning in Parameterized Action Space

Matthew Hausknecht, Peter Stone|arXiv (Cornell University)|Nov 13, 2015

Reinforcement Learning in Robotics参考文献 9被引用 54

一句话总结

该论文将深度确定性策略梯度（DDPG）扩展至连续控制中的参数化动作空间，引入梯度截断以实现在有界、结构化动作空间中的稳定学习。该方法成功训练了智能体在RoboCup 2D半场进攻环境中的表现，其进球可靠性优于2012年手写编码的冠军智能体，首次实现了在参数化动作空间中的深度强化学习成功应用。

ABSTRACT

Recent work has shown that deep neural networks are capable of approximating both value functions and policies in reinforcement learning domains featuring continuous state and action spaces. However, to the best of our knowledge no previous work has succeeded at using deep neural networks in structured (parameterized) continuous action spaces. To fill this gap, this paper focuses on learning within the domain of simulated RoboCup soccer, which features a small set of discrete action types, each of which is parameterized with continuous variables. The best learned agent can score goals more reliably than the 2012 RoboCup champion agent. As such, this paper represents a successful extension of deep reinforcement learning to the class of parameterized action space MDPs.

研究动机与目标

将深度强化学习扩展至结合离散动作类型与连续参数的参数化动作空间。
通过引入梯度截断，解决DDPG在有界连续动作空间中的不稳定性问题。
在RoboCup 2D半场进攻环境中端到端训练深度强化学习智能体，无需手写行为规则。
证明深度强化学习能够使用单一统一策略学习复杂、多阶段任务——接近球、带球前进并完成射门。
为未来多智能体协作及对抗防守者完成进球任务的研究奠定基础。

提出的方法

通过修改评论家的梯度更新方式，将动作空间中的梯度进行截断，提升训练稳定性，从而扩展DDPG。
使用深度神经网络在连续状态-动作空间中参数化演员（策略）和评论家（动作价值函数）。
采用包含四种离散动作类型的参数化动作空间——冲刺（Dash）、转身（Turn）、铲球（Tackle）、踢球（Kick），每种动作具有1至2个连续参数（例如力度、方向）。
采用稀疏但信息丰富的奖励函数：朝向球移动、成功启动踢球动作，以及靠近球门的距离。
从零开始使用异策略经验回放和目标网络进行训练，方法与DDPG一致。
在动作空间梯度上实施梯度截断，以防止在有界动作空间中训练时出现发散。

实验结果

研究问题

RQ1深度强化学习能否在结合离散动作类型与连续参数的参数化动作空间中成功学习？
RQ2对动作空间梯度进行截断是否能提升有界连续动作空间中的训练稳定性和性能？
RQ3单一深度强化学习智能体能否在不依赖手写行为规则的情况下，学习执行一系列复杂行为——接近球、带球前进并完成射门？
RQ4在RoboCup 2D半场进攻环境中，学习得到的智能体性能与手写专家策略相比如何？
RQ5所提出的方法是否能泛化到HFO领域之外的其他连续有界动作空间？

主要发现

所提出的梯度截断技术显著提升了有界连续动作空间中的训练稳定性，使标准DDPG无法实现的可靠学习成为可能。
表现最佳的学习智能体进球可靠性超过2012年RoboCup冠军智能体，尽管其速度较慢。
智能体成功学习了接近球、带球向球门前进并执行进球踢球动作，全部基于单一端到端训练的策略。
该方法实现了在复杂参数化动作空间中从零开始的稳定训练，无需依赖外部策略搜索或人工设计的行为规则。
评论家对状态输入的梯度指示了改进方向，暗示未来可拓展为基于模型的方法。
该方法具有泛化能力，可推广至HFO领域之外，预计对其他连续有界动作空间问题具有显著优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。