QUICK REVIEW

[论文解读] Hierarchical Approaches for Reinforcement Learning in Parameterized Action Space

Ermo Wei, Drew Wicke|arXiv (Cornell University)|Oct 23, 2018

Reinforcement Learning in Robotics被引用 24

一句话总结

本文提出了一种用于参数化动作空间的分层深度强化学习框架，其中离散动作策略用于条件化连续参数策略，从而减小输出规模并提升样本效率。作者提出了PATRPO和PASVG(0)，在平台和足球领域任务中，其稳定性和性能均优于SOTA方法（如PADDPG）。

ABSTRACT

We explore Deep Reinforcement Learning in a parameterized action space. Specifically, we investigate how to achieve sample-efficient end-to-end training in these tasks. We propose a new compact architecture for the tasks where the parameter policy is conditioned on the output of the discrete action policy. We also propose two new methods based on the state-of-the-art algorithms Trust Region Policy Optimization (TRPO) and Stochastic Value Gradient (SVG) to train such an architecture. We demonstrate that these methods outperform the state of the art method, Parameterized Action DDPG, on test domains.

研究动机与目标

解决端到端训练中参数化动作空间任务的样本效率低下问题。
克服先前方法将离散动作与参数化动作分开处理或缺乏条件化机制的局限性。
设计一种统一架构，使参数策略基于离散动作选择进行条件化，以降低输出维度。
将最先进算法（TRPO和SVG）扩展至新分层架构，以实现高效训练。
在复杂控制任务中，与现有方法（如PADDPG）相比，实现更优的性能与更高的训练稳定性。

提出的方法

提出一种分层架构，其中参数策略基于离散动作策略的输出进行条件化，从而减小参数输出规模。
采用双流策略网络：一个用于离散动作（输出为分类分布），另一个用于连续参数（输出为基于离散动作的回归输出）。
将信任区域策略优化（TRPO）适配至分层设置，得到PATRPO，通过KL散度约束实现策略更新。
将随机值梯度（SVG）扩展至分层设置，生成PASVG(0)，利用评论家网络估计值函数。
应用输出掩码与截断机制，以处理可变长度的参数输出，仅使用前序有效参数。
采用经验回放缓冲区与离策略学习，以提升训练过程中的数据效率。

实验结果

研究问题

RQ1基于离散动作条件化参数策略的分层策略架构，是否能提升参数化动作空间任务的样本效率？
RQ2TRPO与SVG基础算法在适配至该分层架构后，其性能表现如何？
RQ3所提方法是否在学习稳定性和最终性能方面优于现有SOTA方法（如PADDPG）？
RQ4不同KL散度估计方法对分层框架中训练稳定性的影晌如何？
RQ5该方法是否能在高维状态与动作空间的更大、更复杂环境中实现良好泛化？

主要发现

PATRPO在Platform领域取得了最佳性能，维持了高水平奖励且未出现性能崩溃。
PADDPG表现出学习不稳定，尽管早期取得成功，但很快便遗忘已掌握的策略，表明其收敛稳定性较差。
PASVG(0)收敛至局部最优，平均奖励约为0.4，对应于避开首个敌人但未能成功降落在第二个平台。
PATRPO中更大的步长虽加快收敛速度，但也导致方差增加，并在策略稳定后出现性能下降，凸显了训练稳定性中的权衡。
在HFO领域，PATRPO使用更小的神经网络（400-300-200）即实现稳定性能，而PADDPG表现出高方差且性能显著更差，表明基线方法需要更大网络。
在Platform领域，不同KL散度估计方法对性能影响可忽略，表明TRPO基础更新机制具有强鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。