[论文解读] Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement Learning
该论文提出了一种k步邻接约束,以减少目标条件性层次强化学习(HRL)中的高层动作空间,通过将子目标生成限制在从当前状态可达的k步范围内,从而提升训练效率。该方法在确定性MDP中保持了最优策略,并使用可学习的邻接网络来强制执行该约束,在离散和连续控制任务上,相较于SOTA HRL方法(如HIRO),展现出更高的样本效率和渐近性能。
Goal-conditioned hierarchical reinforcement learning (HRL) is a promising approach for scaling up reinforcement learning (RL) techniques. However, it often suffers from training inefficiency as the action space of the high-level, i.e., the goal space, is often large. Searching in a large goal space poses difficulties for both high-level subgoal generation and low-level policy learning. In this paper, we show that this problem can be effectively alleviated by restricting the high-level action space from the whole goal space to a $k$-step adjacent region of the current state using an adjacency constraint. We theoretically prove that the proposed adjacency constraint preserves the optimal hierarchical policy in deterministic MDPs, and show that this constraint can be practically implemented by training an adjacency network that can discriminate between adjacent and non-adjacent subgoals. Experimental results on discrete and continuous control tasks show that incorporating the adjacency constraint improves the performance of state-of-the-art HRL approaches in both deterministic and stochastic environments.
研究动机与目标
- 为解决目标条件性HRL中因高层动作空间过大(即完整目标空间)导致的训练低效问题。
- 通过将高层动作限制在k步内可达的子目标上,减轻探索负担并改善价值函数近似。
- 在显著减小有效动作空间的同时,保持分层策略的最优性。
- 通过可训练的邻接网络实现邻接约束的实际应用,以区分相邻与非相邻子目标。
- 通过提供更频繁且有意义的内在奖励,促进低层策略的学习。
提出的方法
- 提出k步邻接约束,限制高层策略仅从当前状态可达的k步距离内选择子目标。
- 理论上证明该约束在确定性MDP中可保持最优分层策略。
- 引入一个邻接网络(通过对比学习训练),用于判断给定子目标是否位于当前状态的k步邻接区域内。
- 利用邻接网络对高层动作进行过滤,有效将动作空间缩小至仅相关且邻近的子目标。
- 将邻接约束集成到目标条件性HRL框架中,使高层策略仅选择邻接子目标,低层策略则被训练以达成这些子目标。
- 采用基于互信息的目标函数训练邻接网络,使其能泛化至多样化环境。
实验结果
研究问题
- RQ1在确定性MDP中,将高层动作空间限制在k步邻接子目标是否能保持最优分层策略?
- RQ2如何在不依赖领域特定知识或环境动态的前提下,实际实现k步邻接约束?
- RQ3该邻接约束是否能在离散和连续控制任务中同时提升样本效率和渐近性能?
- RQ4邻接网络是否能无需任务特定设计,在不同环境和任务间实现良好泛化?
- RQ5与SOTA HRL方法(如HIRO)相比,该方法在学习速度和最终性能方面表现如何?
主要发现
- k步邻接约束在确定性MDP中保持了最优分层策略,为其应用提供了理论依据。
- 邻接网络有效学习到区分相邻与非相邻子目标的能力,实现了该约束的实际应用。
- 在MuJoCo连续控制任务中,该方法相比HIRO将样本效率提升了最高2.5倍,渐近性能最高提升30%。
- 在离散网格世界环境中,所提方法相较于基线HRL方法实现了更高的成功率和更快的收敛速度。
- 邻接网络在不同任务和环境间表现出良好泛化能力,包括稀疏奖励和长时程规划任务。
- 该方法在随机与确定性环境中均表现出鲁棒性,在多种评估指标下优于SOTA HRL方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。