QUICK REVIEW

[论文解读] Unicorn: Continual Learning with a Universal, Off-policy Agent

Daniel J. Mankowitz, Augustin Žídek|arXiv (Cornell University)|Feb 22, 2018

Domain Adaptation and Few-Shot Learning参考文献 42被引用 37

一句话总结

Unicorn 提出了一种通用的、异策略强化学习智能体，通过并行经验回放和通用价值函数近似器（UVFA），联合表示并学习多个策略，实现了在具有深度依赖结构的多任务场景中的持续学习。它通过高效共享经验与复用技能，显著优于基线方法，在稀疏奖励的3D环境中实现了复杂层级任务的优越性能。

ABSTRACT

Some real-world domains are best characterized as a single task, but for others this perspective is limiting. Instead, some tasks continually grow in complexity, in tandem with the agent's competence. In continual learning, also referred to as lifelong learning, there are no explicit task boundaries or curricula. As learning agents have become more powerful, continual learning remains one of the frontiers that has resisted quick progress. To test continual learning capabilities we consider a challenging 3D domain with an implicit sequence of tasks and sparse rewards. We propose a novel agent architecture called Unicorn, which demonstrates strong continual learning and outperforms several baseline agents on the proposed domain. The agent achieves this by jointly representing and learning multiple policies efficiently, using a parallel off-policy learning setup.

研究动机与目标

开发一种持续学习智能体，能够在无显式任务边界或课程设计的情况下解决多个具有深度依赖关系的任务。
通过在并行异策略框架中共享经验与表征，实现高效、可扩展的学习。
克服先前两阶段强化学习方法的局限性，这些方法将技能获取与任务组合分离。
在富含细节的3D环境中，通过端到端、单阶段学习实现复杂、相互依赖任务的求解。
评估智能体在泛化能力、知识迁移以及任务深度与复杂性增加时的可扩展性。

提出的方法

智能体使用通用价值函数近似器（UVFA）通过共享参数，联合表示多个目标的价值函数。
通过全局经验回放缓冲区实现异策略学习，该缓冲区存储来自多个并行智能体的轨迹。
每个智能体以均匀随机方式采样目标，并根据条件于目标的策略执行动作，从而在单一训练循环中实现多任务学习。
梯度通过UVFA反向传播，每次训练步骤后所有智能体与最新的全局网络参数同步。
由于共享表征与共享经验，该架构支持零样本迁移和相关任务间的协同学习。
该方法设计具有可扩展性，在多任务设置中表现出线性扩展行为。

实验结果

研究问题

RQ1单智能体架构是否能够在无显式课程或任务边界的情况下，端到端学习多个相互依赖的任务？
RQ2在具有深度依赖关系的层级任务中，通过共享经验的异策略多目标学习在性能上如何提升？
RQ3通过单一共享表征，通用策略在无关与相关任务之间泛化的程度如何？
RQ4所提出的架构在任务数量和任务深度增加时是否能高效扩展？
RQ5在稀疏奖励环境中，智能体是否能无需奖励塑造或显式监督，利用自然课程进行学习？

主要发现

Unicorn 智能体的最终性能显著优于最佳基线（glutton），收集了 4.75 个宝箱奖励，而基线仅收集 1.05 个，表明其在处理深度依赖关系方面表现更优。
Unicorn 展现出能力分阶段提升的特征，在最难的子任务（如宝箱）上与基线的性能差距最大，证实了对复杂依赖关系的有效学习。
性能随任务数量的增加近似线性增长，表明该方法在多任务持续学习设置中具有良好的可扩展性。
智能体在测试时成功按正确顺序解决了全部 4 个子任务（钥匙、锁、门、宝箱），分别收集了 9.93 个钥匙、6.99 个锁、5.92 个门和 4.75 个宝箱奖励。
消融研究显示，仅使用异策略学习已足以实现优异性能，且基于上下文Bandit的课程学习并未明显优于均匀采样。
该智能体在四任务序列上优于单任务专家基线，但当依赖深度增加至 5 个任务时无法学习该任务，凸显了共享经验与多任务学习的重要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。