[论文解读] Transfer in Deep Reinforcement Learning Using Successor Features and Generalised Policy Improvement
本论文将后继特征与广义策略改进(SF & GPI)的迁移框架推广到更广的奖励设置,证明奖励本身可用作在线深度迁移的特征,并在一个 3D 第一人称环境中实现对未见任务的几乎瞬时迁移,同时学习的策略可被持续复用。
The ability to transfer skills across tasks has the potential to scale up reinforcement learning (RL) agents to environments currently out of reach. Recently, a framework based on two ideas, successor features (SFs) and generalised policy improvement (GPI), has been introduced as a principled way of transferring skills. In this paper we extend the SFs & GPI framework in two ways. One of the basic assumptions underlying the original formulation of SFs & GPI is that rewards for all tasks of interest can be computed as linear combinations of a fixed set of features. We relax this constraint and show that the theoretical guarantees supporting the framework can be extended to any set of tasks that only differ in the reward function. Our second contribution is to show that one can use the reward functions themselves as features for future tasks, without any loss of expressiveness, thus removing the need to specify a set of features beforehand. This makes it possible to combine SFs & GPI with deep learning in a more stable way. We empirically verify this claim on a complex 3D environment where observations are images from a first-person perspective. We show that the transfer promoted by SFs & GPI leads to very good policies on unseen tasks almost instantaneously. We also describe how to learn policies specialised to the new tasks in a way that allows them to be added to the agent's set of skills, and thus be reused in the future.
研究动机与目标
- 激发强化学习中的迁移,以使代理能够扩展到复杂环境。
- 放宽奖励必须能表示为特征的固定线性组合的要求。
- 表明奖励本身可以作为未来任务的特征,而不损失表达能力。
- 在具有挑战性的 3D 环境中展示在线且与深度学习兼容的迁移,并实现对新技能的持续学习。
提出的方法
- 将 SF & GPI 框架扩展到超出原始线性特征设置的环境,定义一个广义的 M,其共享 S、A、p 和 gamma。
- 为在任意奖励函数上的迁移策略提供理论保证(命题 1)。
- 通过将奖励函数本身用作特征来替代对预定义特征映射的需求,从而实现可扩展的深度学习整合。
- 提出在在线学习中学习和应用 SF 的算法(带 Q 学習的 SF & GPI,算法 1),并将 GPI 与对新任务的策略专门化相结合。
- 描述如何通过不断用新任务特定策略扩展 SF 基底来学习并重复使用日益增长的技能集合。
实验结果
研究问题
- RQ1当任务的奖励函数超出固定特征范围时,SF & GPI 能否提供性能保证?
- RQ2奖励本身是否可以用作特征,以支持深度强化学习中的可扩展在线迁移?
- RQ3在高维、基于图像的 3D 环境中,SF & GPI 是否促进对未见任务的有效迁移?
- RQ4如何学习并将对新任务专门化的策略并入日益扩大的技能集合中,以实现持续学习?
主要发现
- 建立了一个界限(命题 1),表明在扩展的环境 M 中,迁移策略的性能受涉及奖励差异和近似误差的项的控制。
- 使用奖励作为特征会得到实际的价值函数形式的 SF,能够与深度学习和在线更新直接集成。
- 在一个 3D 第一人称环境的经验结果显示,在 SF & GPI 下对未见任务的迁移几乎可以瞬时完成。
- 该框架支持学习对特定任务的策略,可以被加入代理的技能集以实现持续复用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。