QUICK REVIEW

[论文解读] Hierarchical Reinforcement Learning with Timed Subgoals

Nico Gürtler, Dieter Büchler|arXiv (Cornell University)|Dec 6, 2021

Reinforcement Learning in Robotics被引用 8

一句话总结

本文提出分层强化学习带定时子目标（HiTS），通过使高层策略同时指定子目标与精确的时间约束，提升动态环境中样本效率的学习性能。结合定时子目标与事后动作重标记，HiTS通过消除过渡时间的非平稳性，稳定了训练过程，即使在低层策略随时间改进时也能实现层级间的并发学习。该方法在先前方法无法学习到稳定策略的复杂动态环境中，优于当前最先进基线方法。

ABSTRACT

Hierarchical reinforcement learning (HRL) holds great potential for sample-efficient learning on challenging long-horizon tasks. In particular, letting a higher level assign subgoals to a lower level has been shown to enable fast learning on difficult problems. However, such subgoal-based methods have been designed with static reinforcement learning environments in mind and consequently struggle with dynamic elements beyond the immediate control of the agent even though they are ubiquitous in real-world problems. In this paper, we introduce Hierarchical reinforcement learning with Timed Subgoals (HiTS), an HRL algorithm that enables the agent to adapt its timing to a dynamic environment by not only specifying what goal state is to be reached but also when. We discuss how communicating with a lower level in terms of such timed subgoals results in a more stable learning problem for the higher level. Our experiments on a range of standard benchmarks and three new challenging dynamic reinforcement learning environments show that our method is capable of sample-efficient learning where an existing state-of-the-art subgoal-based HRL method fails to learn stable solutions.

研究动机与目标

解决当低层策略在训练过程中改进时，因过渡时间非平稳性导致的分层强化学习（HRL）不稳定问题。
在外部动态（如移动物体）影响任务执行时间的动态环境中，实现层级间并发学习。
克服现有基于子目标的HRL方法的局限性，这些方法假设环境静态，当低层策略变快导致过渡时间变化时会失效。
为涉及动态元素（如移动目标或时间关键交互）的长时程任务，提供稳定且样本高效的训练框架。
展示定时子目标如何使高层策略能够显式推理时间抽象，提升鲁棒性与收敛性。

提出的方法

引入定时子目标，作为目标状态（子目标）与到达时间区间的联合指定，使高层策略对过渡时间具有显式控制权。
将高层策略与环境的交互形式化为半马尔可夫决策过程（SMDP），由于时间约束的存在，过渡时间不再具有随机性。
将定时子目标与事后动作重标记相结合，隐藏子目标空间中的非平稳性，支持离策略学习并实现稳定训练。
采用两级HRL架构：高层策略选择定时子目标，低层策略执行动作在指定时间窗口内抵达子目标。
基于与子目标的距离，对低层策略实施密集奖励塑造，重点是最小化到达时间，同时遵守时间约束。
当低层策略未能抵达子目标时，对高层策略施加惩罚奖励，以抑制不切实际的子目标选择。

实验结果

研究问题

RQ1在训练过程中过渡时间因策略改进而变化的动态环境中，子目标中的显式时间约束是否能稳定分层强化学习？
RQ2将定时子目标与事后动作重标记结合，是否能消除高层策略所见有效SMDP中过渡时间分布的非平稳性？
RQ3HiTS能否在先前基于子目标的HRL方法失效的长时程任务中，实现稳定且样本高效的训练？
RQ4与标准基于子目标的HRL相比，使用定时子目标如何影响高层策略的收敛性与样本效率？
RQ5HiTS在需要精确时间协调的新动态环境中，其泛化能力在多大程度上得以体现？

主要发现

HiTS在三个新的动态基准环境（如网球拦截、动态导航）中成功学习到稳定策略，而当前最先进基于子目标的HRL基线方法无法收敛。
与现有HRL方法相比，HiTS在标准基准（如AntMaze、HalfCheetah）上性能方差显著降低，表明训练稳定性得到提升。
事后动作重标记与定时子目标的结合，有效消除了SMDP过渡时间分布中的非平稳性，实现了层级间稳定并发学习。
在HalfCheetah和AntMaze等标准基准上，HiTS的性能与现有SOTA方法相当或更优，且收敛更快、样本复杂度更低。
即使在评估过渡中存在微小非平稳性来源时，该算法依然保持鲁棒性，表明其在理想假设之外也具备实际可行性。
实验表明，HiTS中的高层策略通过显式定时子目标，学会与动态环境元素（如移动球体）协调动作，实现精确干预。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。