QUICK REVIEW

[论文解读] Discrete Sequential Prediction of Continuous Actions for Deep RL

Luke Metz, Julian Ibarz|arXiv (Cornell University)|May 14, 2017

Reinforcement Learning in Robotics参考文献 55被引用 70

一句话总结

本论文提出顺序DQN（SDQN），一种离策略方法，将每个动作维离散化并按顺序预测动作，以在连续控制任务中实现近似全局最大化。它在 Mujoco 任务上显示出与 DDPG 相当或更好的性能。

ABSTRACT

It has long been assumed that high dimensional continuous control problems cannot be solved effectively by discretizing individual dimensions of the action space due to the exponentially large number of bins over which policies would have to be learned. In this paper, we draw inspiration from the recent success of sequence-to-sequence models for structured prediction problems to develop policies over discretized spaces. Central to this method is the realization that complex functions over high dimensional spaces can be modeled by neural networks that predict one dimension at a time. Specifically, we show how Q-values and policies over continuous spaces can be modeled using a next step prediction model over discretized dimensions. With this parameterization, it is possible to both leverage the compositional structure of action spaces during learning, as well as compute maxima over action spaces (approximately). On a simple example task we demonstrate empirically that our method can perform global search, which effectively gets around the local optimization issues that plague DDPG. We apply the technique to off-policy (Q-learning) methods and show that our method can achieve the state-of-the-art for off-policy methods on several continuous control tasks.

研究动机与目标

解决高维连续控制与离散化带来的挑战的动机。
引入顺序（自回归）Q值建模方法，以在不产生指数级动作爆炸的情况下处理离散化的动作空间。
开发两层MDP转换，以实现对一维动作的预测、反向传播和Bellman备份。
通过将该方法应用于连续控制任务中的Q学习风格更新，展示离策略学习的优势。

提出的方法

将N维连续动作空间分解为使用两层MDP层次结构的一个一维动作序列。
将每个动作维离散化为若干桶，并用序列预测器（SDQN）建模Q值。
在顶层MDP上通过TD-0最小化以贪婪策略为目标的Bellman误差来训练Q^U。
在底层MDP上进行训练，除真实环境状态改变时外，使用零折扣，强制在对应点使Q^U = Q^L。
使用神经网络对Q^U和Q^L进行参数化（LSTM或逐步独立模型），并在两个Q函数之间实施软等式约束。
将SDQN与OpenAI Gym Mujoco任务中的DDPG进行比较，并分析桶数和动作顺序对学习的敏感性。

实验结果

研究问题

RQ1将动作维离散化并按顺序预测，是否能够在高维连续控制中实现有效的全局最大化？
RQ2相对于最先进的连续控制方法（如DDPG），离策略的SDQN方法在标准基准上是否达到具有竞争力的性能？
RQ3离散化的粒度（桶数）和动作顺序如何影响学习性能与稳定性？

主要发现

SDQN 在所测试的五个 Mujoco 任务中有四个任务的性能与 DDPG 相当或优于 DDPG。
SDQN 能快速学习出良好策略并避免可能困住梯度方法的局部极大值。
该方法对桶数在4以上的范围具有鲁棒性，通常对动作顺序的敏感性较小。
在 Hopper、Swimmer、Half-Cheetah、Humanoid、Walker2d 上，SDQN 与 DDPG 展示出各自的性能指标，SDQN 常获得更高的最终回报。
在一个多模态的示例环境中，SDQN 能进行全局搜索，避免阻碍局部优化方法的局部极大值。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。