Skip to main content
QUICK REVIEW

[论文解读] Successor Features for Transfer in Reinforcement Learning

André Sales Barreto, Will Dabney|arXiv (Cornell University)|Jun 16, 2016
Reinforcement Learning in Robotics参考文献 17被引用 177
一句话总结

本文提出后继特征(SFs)来将环境动态与奖励解耦,并引入广义策略改进(GPI)框架,以实现跨任务的迁移,虽奖励不同但动态相同,附有理论保证和实证验证。

ABSTRACT

Transfer in reinforcement learning refers to the notion that generalization should occur not only within a task but also across tasks. We propose a transfer framework for the scenario where the reward function changes between tasks but the environment's dynamics remain the same. Our approach rests on two key ideas: "successor features", a value function representation that decouples the dynamics of the environment from the rewards, and "generalized policy improvement", a generalization of dynamic programming's policy improvement operation that considers a set of policies rather than a single one. Put together, the two ideas lead to an approach that integrates seamlessly within the reinforcement learning framework and allows the free exchange of information across tasks. The proposed method also provides performance guarantees for the transferred policy even before any learning has taken place. We derive two theorems that set our approach in firm theoretical ground and present experiments that show that it successfully promotes transfer in practice, significantly outperforming alternative methods in a sequence of navigation tasks and in the control of a simulated robotic arm.

研究动机与目标

  • 在奖励函数改变但动力学保持固定时,驱动并形式化迁移。
  • 引入后继特征以将动力学与奖励解耦,实现可扩展迁移。
  • 发展广义策略改进,以在任务改变时结合多策略。
  • 在进一步学习之前为转移策略提供理论保证。
  • 通过导航任务和实验中的机器人臂演示实际迁移。

提出的方法

  • 将一步奖励表示为 r(s,a,s') = phi(s,a,s')^T w,并定义后继特征 psi^pi(s,a) = E_pi[sum_{t} gamma^{t-t0} phi_{t+1} | S_t=s, A_t=a].
  • 使用 psi^pi 表达 Q^pi(s,a) = psi^pi(s,a)^T w,从而实现动力学与奖励的解耦。
  • 将贝尔曼策略改进扩展为广义策略改进(GPI),使用 max_i tildeQ^pi_i,并证明性能界限。
  • 通过 M^phi = {M(phi,w) | w in R^d} 引入迁移,其中任务通过 w 而非 phi 来不同。
  • 计算并存储先前学习的策略的后继特征,然后对于具有 w_{n+1} 的新任务,通过 psi^{pi_i}^T w_{n+1} 获得 Q 值并应用 GPI。
  • 给出两个定理:(1) 具有近似保证的 GPI;(2) 与 w-space 中任务相似度相关的性能界限。

实验结果

研究问题

  • RQ1当奖励改变但动力学固定时,后继特征是否能实现有效迁移?
  • RQ2利用 SFs 的广义策略改进是否能在学习前为新任务提供性能保证?
  • RQ3在 phi 加权空间中的任务相似性如何转化为迁移性能,以及构建技能库的实际指导?
  • RQ4在导航和机器人控制任务中,与基线相比,SFs 与 GPI 提供了哪些经验上的好处?

主要发现

  • 后继特征提供了一种将动力学与奖励解耦的价值函数表示,促进迁移。
  • 带有 SF 的 GPI 提供性能保证,并利用一组策略来改进新任务。
  • 实验表明,SFQL 和 SFDQN 在导航任务与 Reacher 领域的表现优于基线,具有显著增益。
  • 使用学习到的后继特征(SFQL-h)即使 phi 未完美已知,也能实现快速、稳健的迁移。
  • Reacher 实验表明,在训练任务上的学习可以提升在未明确训练的测试任务上的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。