QUICK REVIEW

[论文解读] Learnings Options End-to-End for Continuous Action Tasks

Martin Klissarov, Pierre‐Luc Bacon|arXiv (Cornell University)|Nov 30, 2017

Reinforcement Learning in Robotics参考文献 7被引用 33

一句话总结

本文提出了一种基于选项-批评家架构并结合近端策略优化（PPO）与思考成本的端到端深度强化学习方法，用于连续控制任务，以学习时序扩展的选项。结果表明，该方法在样本效率和性能方面均有提升，尤其在HopperIceBlock-v0等组合性环境中的表现尤为突出，其中选项使得仅靠原始动作无法完成的任务得以解决。

ABSTRACT

We present new results on learning temporally extended actions for continuoustasks, using the options framework (Suttonet al.[1999b], Precup [2000]). In orderto achieve this goal we work with the option-critic architecture (Baconet al.[2017])using a deliberation cost and train it with proximal policy optimization (Schulmanet al.[2017]) instead of vanilla policy gradient. Results on Mujoco domains arepromising, but lead to interesting questions aboutwhena given option should beused, an issue directly connected to the use of initiation sets.

研究动机与目标

通过深度神经网络实现在连续控制环境中端到端学习选项。
通过将PPO与选项-批评家框架结合，提升样本效率与学习稳定性。
研究思考成本对选项学习及在多样化环境中性能的影响。
评估在具有明显状态空间组合性的环境中，层次化选项是否具有优势。
探索手动指定选项数量的必要性，以及启动集合在选项选择中的作用。

提出的方法

将选项-批评家架构改进为使用PPO而非原始策略梯度，以端到端方式训练选项内策略与终止条件。
引入思考成本（η）以防止选项坍塌，要求选项的性能必须优于当前策略的最小阈值。
采用双流神经网络：一个用于选项上的策略与价值函数，另一个用于终止概率与状态-选项值。
应用广义优势估计（GAE）以实现稳定的优势函数估计，并采用截断概率比以稳定训练过程。
在基于选项的训练中将奖励缩放1/10，以稳定终止梯度更新。
使用与Schulman等人（2017）相同的超参数，仅根据选项数量调整小批量大小，以确保公平比较。

实验结果

研究问题

RQ1PPO能否有效与选项-批评家架构结合，用于连续控制任务中的选项学习？
RQ2思考成本（η）如何影响所学选项的出现与性能表现？
RQ3在哪些类型的环境中，选项相较于原始动作能提供显著的性能优势？
RQ4选项的可解释性与其在组合性任务中的有效性之间有何关联？
RQ5选项数量在多大程度上是超参数？是否可实现端到端学习？

主要发现

与原始动作基线相比，PPO增强的选项-批评家框架在大多数MuJoCo环境中实现了更快的学习速度与更高的最终性能。
在HopperIceBlock-v0环境中，仅基于选项的智能体达到了1200分的成功阈值，表明在组合性任务中具有关键性能优势。
选项带来的性能增益与思考成本（η）并非呈正比关系，表明其对超参数选择与环境缩放具有敏感性。
一个选项专门用于在平坦地形上跳跃，另一个则用于穿越滑溜的冰块，显示出清晰的可解释性与功能组合性。
在标准MuJoCo环境中，选项主要在智能体初始阶段被使用以建立动量，表明其功能多样性有限。
结果表明，选项的优势在具有显式状态空间组合性的环境中最为显著，凸显了当前选项框架在同质化环境中存在关键局限。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。