[论文解读] Modular Multitask Reinforcement Learning with Policy Sketches
本文提出一个由抽象策略草图引导的模块化多任务强化学习框架,为每个高级符号学习可重复使用的子策略,并通过解耦的 actor–critic 与课程学习进行优化。
We describe a framework for multitask deep reinforcement learning guided by policy sketches. Sketches annotate tasks with sequences of named subtasks, providing information about high-level structural relationships among tasks but not how to implement them---specifically not providing the detailed guidance used by much previous work on learning policy abstractions for RL (e.g. intermediate rewards, subtask completion signals, or intrinsic motivations). To learn from sketches, we present a model that associates every subtask with a modular subpolicy, and jointly maximizes reward over full task-specific policies by tying parameters across shared subpolicies. Optimization is accomplished via a decoupled actor--critic training objective that facilitates learning common behaviors from multiple dissimilar reward functions. We evaluate the effectiveness of our approach in three environments featuring both discrete and continuous control, and with sparse rewards that can be obtained only after completing a number of high-level subgoals. Experiments show that using our approach to learn policies guided by sketches gives better performance than existing techniques for learning task-specific or shared policies, while naturally inducing a library of interpretable primitive behaviors that can be recombined to rapidly adapt to new tasks.
研究动机与目标
- 在不将高级动作与环境细节绑定的前提下,激发层次策略的学习。
- 提出一个模块化子策略架构,将每个高级符号与一个可复用的子策略相关联。
- 开发一个适合模块化、多任务策略的解耦 actor–critic 训练目标。
- 展示通过课程学习进行训练并评估在零-shot 和适应设置中的泛化。
提出的方法
- 用由高级符号序列组成的草图对任务进行注释。
- 将每个符号与一个专用子策略相关联,并在同一符号使用的任务之间共享子策略。
- 将每个任务策略视为其子任务的串联,通过停止机制推进到下一个子策略执行。
- 使用解耦的 actor–critic 目标,带有任务和状态相关的评判者,以减少梯度方差。
- 结合课程学习,逐步处理更长的草图和更难的任务。
实验结果
研究问题
- RQ1策略草图是否能提供足够的指导,使多任务之间快速、模块化学习,而不需要为细节建模?
- RQ2从草图学习的共享子策略是否比非模块化基线提高样本效率和性能?
- RQ3使用由草图引导的模块化子策略时,零-shot 和适应场景的表现如何?
- RQ4课程设计以及以状态和任务相关的基线对学习效率的影响是什么?
主要发现
- 在 craft ing、maze 和 cliff 环境中,模块化草图引导的学习显著优于学习任务特定或完全共享策略的基线。
- 该方法产生一个可解释的原始策略库,可以重新组合来应对新任务。
- 联合训练时,状态和任务相关的评判者比固定基线收敛更快。
- 课程组件(基于长度的任务采样和基于奖励的任务采样)提高收敛速度。
- 零-shot 和适应性实验在基线难以实现泛化的情形下展现出强泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。