[论文解读] Hierarchical Reinforcement Learning for Zero-shot Generalization with Subtask Dependencies
该论文提出了一种分层强化学习框架——神经子任务图求解器(NSGS),用于在由依赖关系和奖励定义的未见子任务图环境中实现零样本泛化。通过使用可微分图奖励传播策略进行预训练,并结合演员-评论家方法微调,NSGS能够推理长期子任务依赖关系,在效率上优于MCTS,同时在未见的2D视觉领域中实现接近最优的性能。
We introduce a new RL problem where the agent is required to generalize to a previously-unseen environment characterized by a subtask graph which describes a set of subtasks and their dependencies. Unlike existing hierarchical multitask RL approaches that explicitly describe what the agent should do at a high level, our problem only describes properties of subtasks and relationships among them, which requires the agent to perform complex reasoning to find the optimal subtask to execute. To solve this problem, we propose a neural subtask graph solver (NSGS) which encodes the subtask graph using a recursive neural network embedding. To overcome the difficulty of training, we propose a novel non-parametric gradient-based policy, graph reward propagation, to pre-train our NSGS agent and further finetune it through actor-critic method. The experimental results on two 2D visual domains show that our agent can perform complex reasoning to find a near-optimal way of executing the subtask graph and generalize well to the unseen subtask graphs. In addition, we compare our agent with a Monte-Carlo tree search (MCTS) method showing that our method is much more efficient than MCTS, and the performance of NSGS can be further improved by combining it with MCTS.
研究动机与目标
- 解决分层强化学习中零样本泛化的问题,即智能体必须在具有复杂依赖关系的未见子任务图上进行推理。
- 提出一种新的强化学习问题,其中任务描述仅指定子任务属性和依赖关系,而非显式的高层动作。
- 开发一种可扩展且适用于实时应用的方法,避免昂贵的搜索或仿真,从而实现在动态环境中的实际部署。
- 使智能体通过考虑长期子任务依赖关系、执行成本和观察上下文,隐式执行复杂推理。
提出的方法
- 提出一种神经子任务图求解器(NSGS),利用递归-反向-递归神经网络(R3NN)对子任务图进行嵌入并编码依赖关系。
- 引入一种非参数化的基于梯度的策略——图奖励传播(GRProp),通过在子任务图中可微分地传播奖励,对NSGS进行预训练。
- 利用GRProp生成监督信号,引导NSGS关注长期奖励潜力高的子任务,即使即时奖励为负也能有效识别。
- 使用演员-评论家强化学习方法对预训练后的NSGS进行微调,以适应特定的观测和环境动态。
- 将NSGS与蒙特卡洛树搜索(MCTS)结合,进一步提升性能,利用MCTS进行规划的同时保持NSGS的高效性。
实验结果
研究问题
- RQ1在缺乏显式任务级监督的情况下,强化学习智能体是否能够泛化到具有复杂依赖关系和奖励结构的未见子任务图?
- RQ2图奖励传播作为预训练信号,在学习分层子任务执行策略方面有多有效?
- RQ3NSGS在样本效率和推理速度方面,相较于基于搜索的基线方法(如MCTS)的优越程度如何?
- RQ4NSGS在处理包含干扰项、延迟奖励或阻碍未来进展的负向子任务的子任务图时表现如何?
主要发现
- 在Playground领域,NSGS实现了0.820的平均性能;在Mining领域实现了0.785的平均性能,显著优于随机基线和基线方法。
- 从零开始训练的NSGS-Scratch智能体仅达到0.046的平均性能,表明通过GRProp进行预训练对学习至关重要。
- NSGS在处理复杂依赖关系方面优于贪婪基线和GRProp,尤其在存在干扰项或延迟奖励的图中,得益于其对长期影响的推理能力。
- NSGS在计算效率上优于MCTS,推理时间适合实时部署,同时仍能达到接近最优的性能。
- 将NSGS与MCTS结合可进一步提升性能,表明NSGS提供了强大的策略先验,从而提升了搜索效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。